Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português

Araripe, Leonel Figueiredo de Alencar

Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português

Detalhes bibliográficos
Autor(a) principal:	Araripe, Leonel Figueiredo de Alencar
Data de Publicação:	2011
Tipo de documento:	Artigo
Idioma:	por
Título da fonte:	Repositório Institucional da Universidade Federal do Ceará (UFC)
Texto Completo:	http://www.repositorio.ufc.br/handle/riufc/19737
Resumo:	Lexicon modeling is the main difficulty to overcome when building deep syntactic parsers for unrestricted text. Traditionally, two strategies have been used for tackling lexical information in the domain of unrestricted syntactic parsing: compiling thousands of lexical entries or formulating hundreds of morphological rules. Due to productive word-formation processes, proper names, and non-standard spellings, the former strategy, resorted to by freely downloadable parsers for Brazilian Portuguese (BP), is not robust. On the other hand, deploying the latter is a time-intensive and non-trivial knowledge engineering task. At present, there is no open-source licensed wide-coverage parser for BP. Aiming at filling this gap as soon as possible, we argue in this paper that a much less expensive and much more efficient solution to the lexicon bottleneck in parsing is to simply reuse freely available morphosyntactic taggers as the system’s lexical analyzer. Besides, thanks to the free and broad availability of POS-tagged corpora for BP and efficient machine learning packages, building additional high accurate taggers has become an almost effortless task. In order to easily integrate the output of taggers constructed in different architectures into context-free grammar chart parsers compiled with the Natural Language Toolkit (NLTK), we have developed a Python module named ALEXP. To the best of our knowledge, this is the first free software specially optimized for processing Portuguese to accomplish such a task. The tool’s functionality is described by means of BP grammar prototypes applied to parsing real-world sentences, with very promising results.

Metadados do item

id	UFC-7_9b986d3cc9b1899149a2fc6ae81257dd
oai_identifier_str	oai:repositorio.ufc.br:riufc/19737
network_acronym_str	UFC-7
network_name_str	Repositório Institucional da Universidade Federal do Ceará (UFC)
repository_id_str
spelling	Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do portuguêsUsing lexical information automatically extracted from corpora in the computational parsing of portugueseLinguística computacionalProcessamento automático da linguagem naturalEtiquetagem morfossintáticaEtiquetador morfossintáticoAnálise sintática automáticaGramática livre de contextoProcessamento computacional do portuguêsAquisição de conhecimento lexicalAprendizado de máquinaComputational linguisticsNatural language processingMorphosyntactic taggingPOS taggingPart-of-speech taggingSyntactic parsingContext-free grammarComputational processing of PortugueseLexical knowledge acquisitionMachine learningLexicon modeling is the main difficulty to overcome when building deep syntactic parsers for unrestricted text. Traditionally, two strategies have been used for tackling lexical information in the domain of unrestricted syntactic parsing: compiling thousands of lexical entries or formulating hundreds of morphological rules. Due to productive word-formation processes, proper names, and non-standard spellings, the former strategy, resorted to by freely downloadable parsers for Brazilian Portuguese (BP), is not robust. On the other hand, deploying the latter is a time-intensive and non-trivial knowledge engineering task. At present, there is no open-source licensed wide-coverage parser for BP. Aiming at filling this gap as soon as possible, we argue in this paper that a much less expensive and much more efficient solution to the lexicon bottleneck in parsing is to simply reuse freely available morphosyntactic taggers as the system’s lexical analyzer. Besides, thanks to the free and broad availability of POS-tagged corpora for BP and efficient machine learning packages, building additional high accurate taggers has become an almost effortless task. In order to easily integrate the output of taggers constructed in different architectures into context-free grammar chart parsers compiled with the Natural Language Toolkit (NLTK), we have developed a Python module named ALEXP. To the best of our knowledge, this is the first free software specially optimized for processing Portuguese to accomplish such a task. The tool’s functionality is described by means of BP grammar prototypes applied to parsing real-world sentences, with very promising results.No desenvolvimento de analisadores sintáticos profundos para textos irrestritos, a principal dificuldade a ser vencida é a modelação do léxico. Tradicionalmente, duas estratégias têm sido usadas para lidar com a informação lexical na análise sintática automática: a compilação de milhares de entradas lexicais ou a formulação de centenas de regras morfológicas. Devido aos processos produtivos de formação de palavras, aos nomes próprios ou a grafias não padrão, a primeira estratégia, que subjaz aos analisadores do português do Brasil (PB) livremente descarregáveis da Internet, não é robusta. A última estratégia, por sua vez, constitui tarefa não trivial de engenharia do conhecimento, consumindo muito tempo. No momento, o PB não dispõe de um analisador sintático de ampla cobertura licenciado como software livre. Visando ao preenchimento o mais rápido possível dessa lacuna, argumentamos neste artigo que uma solução bem menos custosa e muito mais eficiente para o gargalo lexical consiste em simplesmente reaproveitar, como componente lexical do processamento sintático profundo, etiquetadores morfossintáticos livremente disponíveis. Além disso, graças à ampla e gratuita disponibilidade de corpora morfossintaticamente anotados do PB e eficientes pacotes de aprendizado de máquina, a construção de etiquetadores de alta acurácia adicionais tornou-se uma tarefa que quase não demanda esforço. A fim de integrar facilmente o output de etiquetadores de diferentes arquiteturas em parsers tabulares de gramáticas livres de contexto compilados por meio do Natural Language Toolkit (NLTK), desenvolvemos um módulo em Python denominado ALEXP. Pelo que sabemos, o ALEXP é o primeiro software livre especialmente otimizado para o processamento do português a realizar essa tarefa. A funcionalidade da ferramenta é descrita por meio de protótipos de gramática do PB aplicados na análise de sentenças do mundo real, com resultados bastante promissores.Revista de Estudos da Linguagem2016-09-26T21:38:49Z2016-09-26T21:38:49Z2011info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfARARIPE, Leonel Figueiredo de Alencar. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, Belo Horizonte, v. 19, n. 1, p. 7-85, jan./jun. 2011.2237-2083http://www.repositorio.ufc.br/handle/riufc/19737Araripe, Leonel Figueiredo de Alencarinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal do Ceará (UFC)instname:Universidade Federal do Ceará (UFC)instacron:UFC2023-10-31T14:20:59Zoai:repositorio.ufc.br:riufc/19737Repositório InstitucionalPUBhttp://www.repositorio.ufc.br/ri-oai/requestbu@ufc.br \|\| repositorio@ufc.bropendoar:2023-10-31T14:20:59Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)false
dc.title.none.fl_str_mv	Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português Using lexical information automatically extracted from corpora in the computational parsing of portuguese
title	Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português
spellingShingle	Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português Araripe, Leonel Figueiredo de Alencar Linguística computacional Processamento automático da linguagem natural Etiquetagem morfossintática Etiquetador morfossintático Análise sintática automática Gramática livre de contexto Processamento computacional do português Aquisição de conhecimento lexical Aprendizado de máquina Computational linguistics Natural language processing Morphosyntactic tagging POS tagging Part-of-speech tagging Syntactic parsing Context-free grammar Computational processing of Portuguese Lexical knowledge acquisition Machine learning
title_short	Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português
title_full	Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português
title_fullStr	Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português
title_full_unstemmed	Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português
title_sort	Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português
author	Araripe, Leonel Figueiredo de Alencar
author_facet	Araripe, Leonel Figueiredo de Alencar
author_role	author
dc.contributor.author.fl_str_mv	Araripe, Leonel Figueiredo de Alencar
dc.subject.por.fl_str_mv	Linguística computacional Processamento automático da linguagem natural Etiquetagem morfossintática Etiquetador morfossintático Análise sintática automática Gramática livre de contexto Processamento computacional do português Aquisição de conhecimento lexical Aprendizado de máquina Computational linguistics Natural language processing Morphosyntactic tagging POS tagging Part-of-speech tagging Syntactic parsing Context-free grammar Computational processing of Portuguese Lexical knowledge acquisition Machine learning
topic	Linguística computacional Processamento automático da linguagem natural Etiquetagem morfossintática Etiquetador morfossintático Análise sintática automática Gramática livre de contexto Processamento computacional do português Aquisição de conhecimento lexical Aprendizado de máquina Computational linguistics Natural language processing Morphosyntactic tagging POS tagging Part-of-speech tagging Syntactic parsing Context-free grammar Computational processing of Portuguese Lexical knowledge acquisition Machine learning
description	Lexicon modeling is the main difficulty to overcome when building deep syntactic parsers for unrestricted text. Traditionally, two strategies have been used for tackling lexical information in the domain of unrestricted syntactic parsing: compiling thousands of lexical entries or formulating hundreds of morphological rules. Due to productive word-formation processes, proper names, and non-standard spellings, the former strategy, resorted to by freely downloadable parsers for Brazilian Portuguese (BP), is not robust. On the other hand, deploying the latter is a time-intensive and non-trivial knowledge engineering task. At present, there is no open-source licensed wide-coverage parser for BP. Aiming at filling this gap as soon as possible, we argue in this paper that a much less expensive and much more efficient solution to the lexicon bottleneck in parsing is to simply reuse freely available morphosyntactic taggers as the system’s lexical analyzer. Besides, thanks to the free and broad availability of POS-tagged corpora for BP and efficient machine learning packages, building additional high accurate taggers has become an almost effortless task. In order to easily integrate the output of taggers constructed in different architectures into context-free grammar chart parsers compiled with the Natural Language Toolkit (NLTK), we have developed a Python module named ALEXP. To the best of our knowledge, this is the first free software specially optimized for processing Portuguese to accomplish such a task. The tool’s functionality is described by means of BP grammar prototypes applied to parsing real-world sentences, with very promising results.
publishDate	2011
dc.date.none.fl_str_mv	2011 2016-09-26T21:38:49Z 2016-09-26T21:38:49Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/article
format	article
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	ARARIPE, Leonel Figueiredo de Alencar. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, Belo Horizonte, v. 19, n. 1, p. 7-85, jan./jun. 2011. 2237-2083 http://www.repositorio.ufc.br/handle/riufc/19737
identifier_str_mv	ARARIPE, Leonel Figueiredo de Alencar. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, Belo Horizonte, v. 19, n. 1, p. 7-85, jan./jun. 2011. 2237-2083
url	http://www.repositorio.ufc.br/handle/riufc/19737
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Revista de Estudos da Linguagem
publisher.none.fl_str_mv	Revista de Estudos da Linguagem
dc.source.none.fl_str_mv	reponame:Repositório Institucional da Universidade Federal do Ceará (UFC) instname:Universidade Federal do Ceará (UFC) instacron:UFC
instname_str	Universidade Federal do Ceará (UFC)
instacron_str	UFC
institution	UFC
reponame_str	Repositório Institucional da Universidade Federal do Ceará (UFC)
collection	Repositório Institucional da Universidade Federal do Ceará (UFC)
repository.name.fl_str_mv	Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)
repository.mail.fl_str_mv	bu@ufc.br \|\| repositorio@ufc.br
_version_	1809935786481549312

Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português

Registros relacionados