Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português

Detalhes bibliográficos
Autor(a) principal: Araripe, Leonel Figueiredo de Alencar
Data de Publicação: 2011
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal do Ceará (UFC)
Texto Completo: http://www.repositorio.ufc.br/handle/riufc/19737
Resumo: Lexicon modeling is the main difficulty to overcome when building deep syntactic parsers for unrestricted text. Traditionally, two strategies have been used for tackling lexical information in the domain of unrestricted syntactic parsing: compiling thousands of lexical entries or formulating hundreds of morphological rules. Due to productive word-formation processes, proper names, and non-standard spellings, the former strategy, resorted to by freely downloadable parsers for Brazilian Portuguese (BP), is not robust. On the other hand, deploying the latter is a time-intensive and non-trivial knowledge engineering task. At present, there is no open-source licensed wide-coverage parser for BP. Aiming at filling this gap as soon as possible, we argue in this paper that a much less expensive and much more efficient solution to the lexicon bottleneck in parsing is to simply reuse freely available morphosyntactic taggers as the system’s lexical analyzer. Besides, thanks to the free and broad availability of POS-tagged corpora for BP and efficient machine learning packages, building additional high accurate taggers has become an almost effortless task. In order to easily integrate the output of taggers constructed in different architectures into context-free grammar chart parsers compiled with the Natural Language Toolkit (NLTK), we have developed a Python module named ALEXP. To the best of our knowledge, this is the first free software specially optimized for processing Portuguese to accomplish such a task. The tool’s functionality is described by means of BP grammar prototypes applied to parsing real-world sentences, with very promising results.
id UFC-7_9b986d3cc9b1899149a2fc6ae81257dd
oai_identifier_str oai:repositorio.ufc.br:riufc/19737
network_acronym_str UFC-7
network_name_str Repositório Institucional da Universidade Federal do Ceará (UFC)
repository_id_str
spelling Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do portuguêsUsing lexical information automatically extracted from corpora in the computational parsing of portugueseLinguística computacionalProcessamento automático da linguagem naturalEtiquetagem morfossintáticaEtiquetador morfossintáticoAnálise sintática automáticaGramática livre de contextoProcessamento computacional do portuguêsAquisição de conhecimento lexicalAprendizado de máquinaComputational linguisticsNatural language processingMorphosyntactic taggingPOS taggingPart-of-speech taggingSyntactic parsingContext-free grammarComputational processing of PortugueseLexical knowledge acquisitionMachine learningLexicon modeling is the main difficulty to overcome when building deep syntactic parsers for unrestricted text. Traditionally, two strategies have been used for tackling lexical information in the domain of unrestricted syntactic parsing: compiling thousands of lexical entries or formulating hundreds of morphological rules. Due to productive word-formation processes, proper names, and non-standard spellings, the former strategy, resorted to by freely downloadable parsers for Brazilian Portuguese (BP), is not robust. On the other hand, deploying the latter is a time-intensive and non-trivial knowledge engineering task. At present, there is no open-source licensed wide-coverage parser for BP. Aiming at filling this gap as soon as possible, we argue in this paper that a much less expensive and much more efficient solution to the lexicon bottleneck in parsing is to simply reuse freely available morphosyntactic taggers as the system’s lexical analyzer. Besides, thanks to the free and broad availability of POS-tagged corpora for BP and efficient machine learning packages, building additional high accurate taggers has become an almost effortless task. In order to easily integrate the output of taggers constructed in different architectures into context-free grammar chart parsers compiled with the Natural Language Toolkit (NLTK), we have developed a Python module named ALEXP. To the best of our knowledge, this is the first free software specially optimized for processing Portuguese to accomplish such a task. The tool’s functionality is described by means of BP grammar prototypes applied to parsing real-world sentences, with very promising results.No desenvolvimento de analisadores sintáticos profundos para textos irrestritos, a principal dificuldade a ser vencida é a modelação do léxico. Tradicionalmente, duas estratégias têm sido usadas para lidar com a informação lexical na análise sintática automática: a compilação de milhares de entradas lexicais ou a formulação de centenas de regras morfológicas. Devido aos processos produtivos de formação de palavras, aos nomes próprios ou a grafias não padrão, a primeira estratégia, que subjaz aos analisadores do português do Brasil (PB) livremente descarregáveis da Internet, não é robusta. A última estratégia, por sua vez, constitui tarefa não trivial de engenharia do conhecimento, consumindo muito tempo. No momento, o PB não dispõe de um analisador sintático de ampla cobertura licenciado como software livre. Visando ao preenchimento o mais rápido possível dessa lacuna, argumentamos neste artigo que uma solução bem menos custosa e muito mais eficiente para o gargalo lexical consiste em simplesmente reaproveitar, como componente lexical do processamento sintático profundo, etiquetadores morfossintáticos livremente disponíveis. Além disso, graças à ampla e gratuita disponibilidade de corpora morfossintaticamente anotados do PB e eficientes pacotes de aprendizado de máquina, a construção de etiquetadores de alta acurácia adicionais tornou-se uma tarefa que quase não demanda esforço. A fim de integrar facilmente o output de etiquetadores de diferentes arquiteturas em parsers tabulares de gramáticas livres de contexto compilados por meio do Natural Language Toolkit (NLTK), desenvolvemos um módulo em Python denominado ALEXP. Pelo que sabemos, o ALEXP é o primeiro software livre especialmente otimizado para o processamento do português a realizar essa tarefa. A funcionalidade da ferramenta é descrita por meio de protótipos de gramática do PB aplicados na análise de sentenças do mundo real, com resultados bastante promissores.Revista de Estudos da Linguagem2016-09-26T21:38:49Z2016-09-26T21:38:49Z2011info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfARARIPE, Leonel Figueiredo de Alencar. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, Belo Horizonte, v. 19, n. 1, p. 7-85, jan./jun. 2011.2237-2083http://www.repositorio.ufc.br/handle/riufc/19737Araripe, Leonel Figueiredo de Alencarinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal do Ceará (UFC)instname:Universidade Federal do Ceará (UFC)instacron:UFC2023-10-31T14:20:59Zoai:repositorio.ufc.br:riufc/19737Repositório InstitucionalPUBhttp://www.repositorio.ufc.br/ri-oai/requestbu@ufc.br || repositorio@ufc.bropendoar:2024-09-11T18:16:52.041039Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)false
dc.title.none.fl_str_mv Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português
Using lexical information automatically extracted from corpora in the computational parsing of portuguese
title Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português
spellingShingle Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português
Araripe, Leonel Figueiredo de Alencar
Linguística computacional
Processamento automático da linguagem natural
Etiquetagem morfossintática
Etiquetador morfossintático
Análise sintática automática
Gramática livre de contexto
Processamento computacional do português
Aquisição de conhecimento lexical
Aprendizado de máquina
Computational linguistics
Natural language processing
Morphosyntactic tagging
POS tagging
Part-of-speech tagging
Syntactic parsing
Context-free grammar
Computational processing of Portuguese
Lexical knowledge acquisition
Machine learning
title_short Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português
title_full Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português
title_fullStr Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português
title_full_unstemmed Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português
title_sort Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português
author Araripe, Leonel Figueiredo de Alencar
author_facet Araripe, Leonel Figueiredo de Alencar
author_role author
dc.contributor.author.fl_str_mv Araripe, Leonel Figueiredo de Alencar
dc.subject.por.fl_str_mv Linguística computacional
Processamento automático da linguagem natural
Etiquetagem morfossintática
Etiquetador morfossintático
Análise sintática automática
Gramática livre de contexto
Processamento computacional do português
Aquisição de conhecimento lexical
Aprendizado de máquina
Computational linguistics
Natural language processing
Morphosyntactic tagging
POS tagging
Part-of-speech tagging
Syntactic parsing
Context-free grammar
Computational processing of Portuguese
Lexical knowledge acquisition
Machine learning
topic Linguística computacional
Processamento automático da linguagem natural
Etiquetagem morfossintática
Etiquetador morfossintático
Análise sintática automática
Gramática livre de contexto
Processamento computacional do português
Aquisição de conhecimento lexical
Aprendizado de máquina
Computational linguistics
Natural language processing
Morphosyntactic tagging
POS tagging
Part-of-speech tagging
Syntactic parsing
Context-free grammar
Computational processing of Portuguese
Lexical knowledge acquisition
Machine learning
description Lexicon modeling is the main difficulty to overcome when building deep syntactic parsers for unrestricted text. Traditionally, two strategies have been used for tackling lexical information in the domain of unrestricted syntactic parsing: compiling thousands of lexical entries or formulating hundreds of morphological rules. Due to productive word-formation processes, proper names, and non-standard spellings, the former strategy, resorted to by freely downloadable parsers for Brazilian Portuguese (BP), is not robust. On the other hand, deploying the latter is a time-intensive and non-trivial knowledge engineering task. At present, there is no open-source licensed wide-coverage parser for BP. Aiming at filling this gap as soon as possible, we argue in this paper that a much less expensive and much more efficient solution to the lexicon bottleneck in parsing is to simply reuse freely available morphosyntactic taggers as the system’s lexical analyzer. Besides, thanks to the free and broad availability of POS-tagged corpora for BP and efficient machine learning packages, building additional high accurate taggers has become an almost effortless task. In order to easily integrate the output of taggers constructed in different architectures into context-free grammar chart parsers compiled with the Natural Language Toolkit (NLTK), we have developed a Python module named ALEXP. To the best of our knowledge, this is the first free software specially optimized for processing Portuguese to accomplish such a task. The tool’s functionality is described by means of BP grammar prototypes applied to parsing real-world sentences, with very promising results.
publishDate 2011
dc.date.none.fl_str_mv 2011
2016-09-26T21:38:49Z
2016-09-26T21:38:49Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv ARARIPE, Leonel Figueiredo de Alencar. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, Belo Horizonte, v. 19, n. 1, p. 7-85, jan./jun. 2011.
2237-2083
http://www.repositorio.ufc.br/handle/riufc/19737
identifier_str_mv ARARIPE, Leonel Figueiredo de Alencar. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, Belo Horizonte, v. 19, n. 1, p. 7-85, jan./jun. 2011.
2237-2083
url http://www.repositorio.ufc.br/handle/riufc/19737
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Revista de Estudos da Linguagem
publisher.none.fl_str_mv Revista de Estudos da Linguagem
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Ceará (UFC)
instname:Universidade Federal do Ceará (UFC)
instacron:UFC
instname_str Universidade Federal do Ceará (UFC)
instacron_str UFC
institution UFC
reponame_str Repositório Institucional da Universidade Federal do Ceará (UFC)
collection Repositório Institucional da Universidade Federal do Ceará (UFC)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)
repository.mail.fl_str_mv bu@ufc.br || repositorio@ufc.br
_version_ 1813028736000327680