Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português
Autor(a) principal: | |
---|---|
Data de Publicação: | 2011 |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal do Ceará (UFC) |
Texto Completo: | http://www.repositorio.ufc.br/handle/riufc/19737 |
Resumo: | Lexicon modeling is the main difficulty to overcome when building deep syntactic parsers for unrestricted text. Traditionally, two strategies have been used for tackling lexical information in the domain of unrestricted syntactic parsing: compiling thousands of lexical entries or formulating hundreds of morphological rules. Due to productive word-formation processes, proper names, and non-standard spellings, the former strategy, resorted to by freely downloadable parsers for Brazilian Portuguese (BP), is not robust. On the other hand, deploying the latter is a time-intensive and non-trivial knowledge engineering task. At present, there is no open-source licensed wide-coverage parser for BP. Aiming at filling this gap as soon as possible, we argue in this paper that a much less expensive and much more efficient solution to the lexicon bottleneck in parsing is to simply reuse freely available morphosyntactic taggers as the system’s lexical analyzer. Besides, thanks to the free and broad availability of POS-tagged corpora for BP and efficient machine learning packages, building additional high accurate taggers has become an almost effortless task. In order to easily integrate the output of taggers constructed in different architectures into context-free grammar chart parsers compiled with the Natural Language Toolkit (NLTK), we have developed a Python module named ALEXP. To the best of our knowledge, this is the first free software specially optimized for processing Portuguese to accomplish such a task. The tool’s functionality is described by means of BP grammar prototypes applied to parsing real-world sentences, with very promising results. |
id |
UFC-7_9b986d3cc9b1899149a2fc6ae81257dd |
---|---|
oai_identifier_str |
oai:repositorio.ufc.br:riufc/19737 |
network_acronym_str |
UFC-7 |
network_name_str |
Repositório Institucional da Universidade Federal do Ceará (UFC) |
repository_id_str |
|
spelling |
Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do portuguêsUsing lexical information automatically extracted from corpora in the computational parsing of portugueseLinguística computacionalProcessamento automático da linguagem naturalEtiquetagem morfossintáticaEtiquetador morfossintáticoAnálise sintática automáticaGramática livre de contextoProcessamento computacional do portuguêsAquisição de conhecimento lexicalAprendizado de máquinaComputational linguisticsNatural language processingMorphosyntactic taggingPOS taggingPart-of-speech taggingSyntactic parsingContext-free grammarComputational processing of PortugueseLexical knowledge acquisitionMachine learningLexicon modeling is the main difficulty to overcome when building deep syntactic parsers for unrestricted text. Traditionally, two strategies have been used for tackling lexical information in the domain of unrestricted syntactic parsing: compiling thousands of lexical entries or formulating hundreds of morphological rules. Due to productive word-formation processes, proper names, and non-standard spellings, the former strategy, resorted to by freely downloadable parsers for Brazilian Portuguese (BP), is not robust. On the other hand, deploying the latter is a time-intensive and non-trivial knowledge engineering task. At present, there is no open-source licensed wide-coverage parser for BP. Aiming at filling this gap as soon as possible, we argue in this paper that a much less expensive and much more efficient solution to the lexicon bottleneck in parsing is to simply reuse freely available morphosyntactic taggers as the system’s lexical analyzer. Besides, thanks to the free and broad availability of POS-tagged corpora for BP and efficient machine learning packages, building additional high accurate taggers has become an almost effortless task. In order to easily integrate the output of taggers constructed in different architectures into context-free grammar chart parsers compiled with the Natural Language Toolkit (NLTK), we have developed a Python module named ALEXP. To the best of our knowledge, this is the first free software specially optimized for processing Portuguese to accomplish such a task. The tool’s functionality is described by means of BP grammar prototypes applied to parsing real-world sentences, with very promising results.No desenvolvimento de analisadores sintáticos profundos para textos irrestritos, a principal dificuldade a ser vencida é a modelação do léxico. Tradicionalmente, duas estratégias têm sido usadas para lidar com a informação lexical na análise sintática automática: a compilação de milhares de entradas lexicais ou a formulação de centenas de regras morfológicas. Devido aos processos produtivos de formação de palavras, aos nomes próprios ou a grafias não padrão, a primeira estratégia, que subjaz aos analisadores do português do Brasil (PB) livremente descarregáveis da Internet, não é robusta. A última estratégia, por sua vez, constitui tarefa não trivial de engenharia do conhecimento, consumindo muito tempo. No momento, o PB não dispõe de um analisador sintático de ampla cobertura licenciado como software livre. Visando ao preenchimento o mais rápido possível dessa lacuna, argumentamos neste artigo que uma solução bem menos custosa e muito mais eficiente para o gargalo lexical consiste em simplesmente reaproveitar, como componente lexical do processamento sintático profundo, etiquetadores morfossintáticos livremente disponíveis. Além disso, graças à ampla e gratuita disponibilidade de corpora morfossintaticamente anotados do PB e eficientes pacotes de aprendizado de máquina, a construção de etiquetadores de alta acurácia adicionais tornou-se uma tarefa que quase não demanda esforço. A fim de integrar facilmente o output de etiquetadores de diferentes arquiteturas em parsers tabulares de gramáticas livres de contexto compilados por meio do Natural Language Toolkit (NLTK), desenvolvemos um módulo em Python denominado ALEXP. Pelo que sabemos, o ALEXP é o primeiro software livre especialmente otimizado para o processamento do português a realizar essa tarefa. A funcionalidade da ferramenta é descrita por meio de protótipos de gramática do PB aplicados na análise de sentenças do mundo real, com resultados bastante promissores.Revista de Estudos da Linguagem2016-09-26T21:38:49Z2016-09-26T21:38:49Z2011info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfARARIPE, Leonel Figueiredo de Alencar. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, Belo Horizonte, v. 19, n. 1, p. 7-85, jan./jun. 2011.2237-2083http://www.repositorio.ufc.br/handle/riufc/19737Araripe, Leonel Figueiredo de Alencarinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal do Ceará (UFC)instname:Universidade Federal do Ceará (UFC)instacron:UFC2023-10-31T14:20:59Zoai:repositorio.ufc.br:riufc/19737Repositório InstitucionalPUBhttp://www.repositorio.ufc.br/ri-oai/requestbu@ufc.br || repositorio@ufc.bropendoar:2024-09-11T18:16:52.041039Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)false |
dc.title.none.fl_str_mv |
Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português Using lexical information automatically extracted from corpora in the computational parsing of portuguese |
title |
Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português |
spellingShingle |
Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português Araripe, Leonel Figueiredo de Alencar Linguística computacional Processamento automático da linguagem natural Etiquetagem morfossintática Etiquetador morfossintático Análise sintática automática Gramática livre de contexto Processamento computacional do português Aquisição de conhecimento lexical Aprendizado de máquina Computational linguistics Natural language processing Morphosyntactic tagging POS tagging Part-of-speech tagging Syntactic parsing Context-free grammar Computational processing of Portuguese Lexical knowledge acquisition Machine learning |
title_short |
Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português |
title_full |
Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português |
title_fullStr |
Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português |
title_full_unstemmed |
Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português |
title_sort |
Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português |
author |
Araripe, Leonel Figueiredo de Alencar |
author_facet |
Araripe, Leonel Figueiredo de Alencar |
author_role |
author |
dc.contributor.author.fl_str_mv |
Araripe, Leonel Figueiredo de Alencar |
dc.subject.por.fl_str_mv |
Linguística computacional Processamento automático da linguagem natural Etiquetagem morfossintática Etiquetador morfossintático Análise sintática automática Gramática livre de contexto Processamento computacional do português Aquisição de conhecimento lexical Aprendizado de máquina Computational linguistics Natural language processing Morphosyntactic tagging POS tagging Part-of-speech tagging Syntactic parsing Context-free grammar Computational processing of Portuguese Lexical knowledge acquisition Machine learning |
topic |
Linguística computacional Processamento automático da linguagem natural Etiquetagem morfossintática Etiquetador morfossintático Análise sintática automática Gramática livre de contexto Processamento computacional do português Aquisição de conhecimento lexical Aprendizado de máquina Computational linguistics Natural language processing Morphosyntactic tagging POS tagging Part-of-speech tagging Syntactic parsing Context-free grammar Computational processing of Portuguese Lexical knowledge acquisition Machine learning |
description |
Lexicon modeling is the main difficulty to overcome when building deep syntactic parsers for unrestricted text. Traditionally, two strategies have been used for tackling lexical information in the domain of unrestricted syntactic parsing: compiling thousands of lexical entries or formulating hundreds of morphological rules. Due to productive word-formation processes, proper names, and non-standard spellings, the former strategy, resorted to by freely downloadable parsers for Brazilian Portuguese (BP), is not robust. On the other hand, deploying the latter is a time-intensive and non-trivial knowledge engineering task. At present, there is no open-source licensed wide-coverage parser for BP. Aiming at filling this gap as soon as possible, we argue in this paper that a much less expensive and much more efficient solution to the lexicon bottleneck in parsing is to simply reuse freely available morphosyntactic taggers as the system’s lexical analyzer. Besides, thanks to the free and broad availability of POS-tagged corpora for BP and efficient machine learning packages, building additional high accurate taggers has become an almost effortless task. In order to easily integrate the output of taggers constructed in different architectures into context-free grammar chart parsers compiled with the Natural Language Toolkit (NLTK), we have developed a Python module named ALEXP. To the best of our knowledge, this is the first free software specially optimized for processing Portuguese to accomplish such a task. The tool’s functionality is described by means of BP grammar prototypes applied to parsing real-world sentences, with very promising results. |
publishDate |
2011 |
dc.date.none.fl_str_mv |
2011 2016-09-26T21:38:49Z 2016-09-26T21:38:49Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
ARARIPE, Leonel Figueiredo de Alencar. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, Belo Horizonte, v. 19, n. 1, p. 7-85, jan./jun. 2011. 2237-2083 http://www.repositorio.ufc.br/handle/riufc/19737 |
identifier_str_mv |
ARARIPE, Leonel Figueiredo de Alencar. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, Belo Horizonte, v. 19, n. 1, p. 7-85, jan./jun. 2011. 2237-2083 |
url |
http://www.repositorio.ufc.br/handle/riufc/19737 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Revista de Estudos da Linguagem |
publisher.none.fl_str_mv |
Revista de Estudos da Linguagem |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal do Ceará (UFC) instname:Universidade Federal do Ceará (UFC) instacron:UFC |
instname_str |
Universidade Federal do Ceará (UFC) |
instacron_str |
UFC |
institution |
UFC |
reponame_str |
Repositório Institucional da Universidade Federal do Ceará (UFC) |
collection |
Repositório Institucional da Universidade Federal do Ceará (UFC) |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC) |
repository.mail.fl_str_mv |
bu@ufc.br || repositorio@ufc.br |
_version_ |
1813028736000327680 |