MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese

Detalhes bibliográficos
Autor(a) principal: Figueiredo de Alencar, Leonel
Data de Publicação: 2018
Outros Autores: Cuconato, Bruno, Rademaker, Alexandre
Tipo de documento: Artigo
Idioma: eng
Título da fonte: Texto livre
Texto Completo: https://periodicos.ufmg.br/index.php/textolivre/article/view/16809
Resumo: ABSTRACT: One of the prerequisites for many natural language processing technologies is the availability of large lexical resources. This paper reports on MorphoBr, an ongoing project aiming at building a comprehensive full-form lexicon for morphological analysis of Portuguese. A first version of the resource is already freely available online under an open source, free software license. MorphoBr combines analogous free resources, correcting several thousand errors and gaps, and systematically adding new entries. In comparison to the integrated resources, lexical entries in MorphoBr follow a more user-friendly format, which can be straightforwardly compiled into finite-state transducers for morphological analysis, e.g. in the context of syntactic parsing with a grammar in the LFG formalism using the XLE system. MorphoBr results from a combination of computational techniques. Errors and the more obvious gaps in the integrated resources were automatically corrected with scripts. However, MorphoBr's main contribution is the expansion in the inventory of nouns and adjectives. This was carried out by systematically modeling diminutive formation in the paradigm of finite-state morphology. This allowed MorphoBr to significantly outperform analogous resources in the coverage of diminutives. The first evaluation results show MorphoBr to be a promising initiative which will directly contribute to the development of more robust natural language processing tools and applications which depend on wide-coverage morphological analysis.KEYWORDS: computational linguistics; natural language processing; morphological analysis; full-form lexicon; diminutive formation. RESUMO: Um dos pré-requisitos para muitas tecnologias de processamento de linguagem natural é a disponibilidade de vastos recursos lexicais. Este artigo trata do MorphoBr, um projeto em desenvolvimento voltado para a construção de um léxico de formas plenas abrangente para a análise morfológica do português. Uma primeira versão do recurso já está disponível gratuitamente on-line sob uma licença de software livre e de código aberto. MorphoBr combina recursos livres análogos, corrigindo vários milhares de erros e lacunas. Em comparação com os recursos integrados, as entradas lexicais do MorphoBr seguem um formato mais amigável, o qual pode ser compilado diretamente em transdutores de estados finitos para análise morfológica, por exemplo, no contexto do parsing sintático com uma gramática no formalismo da LFG usando o sistema XLE. MorphoBr resulta de uma combinação de técnicas computacionais. Erros e lacunas mais óbvias nos recursos integrados foram automaticamente corrigidos com scripts. No entanto, a principal contribuição de MorphoBr é a expansão no inventário de substantivos e adjetivos. Isso foi alcançado pela modelação sistemática da formação de diminutivos no paradigma da morfologia de estados finitos. Isso possibilitou a MorphoBr superar de forma significativa recursos análogos na cobertura de diminutivos. Os primeiros resultados de avaliação mostram que o MorphoBr constitui uma iniciativa promissora que contribuirá de forma direta para conferir robustez a ferramentas e aplicações de processamento de linguagem natural que dependem de análise morfológica de ampla cobertura.PALAVRAS-CHAVE: linguística computacional; processamento de linguagem natural; análise morfológica; léxico de formas plenas; formação de diminutivos.
id UFMG-9_0ffda67fc34248660ce4bf304ec96e6d
oai_identifier_str oai:periodicos.ufmg.br:article/16809
network_acronym_str UFMG-9
network_name_str Texto livre
repository_id_str
spelling MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguesecomputational linguisticsnatural language processingmorphological analysisfull-form lexicondiminutive formationABSTRACT: One of the prerequisites for many natural language processing technologies is the availability of large lexical resources. This paper reports on MorphoBr, an ongoing project aiming at building a comprehensive full-form lexicon for morphological analysis of Portuguese. A first version of the resource is already freely available online under an open source, free software license. MorphoBr combines analogous free resources, correcting several thousand errors and gaps, and systematically adding new entries. In comparison to the integrated resources, lexical entries in MorphoBr follow a more user-friendly format, which can be straightforwardly compiled into finite-state transducers for morphological analysis, e.g. in the context of syntactic parsing with a grammar in the LFG formalism using the XLE system. MorphoBr results from a combination of computational techniques. Errors and the more obvious gaps in the integrated resources were automatically corrected with scripts. However, MorphoBr's main contribution is the expansion in the inventory of nouns and adjectives. This was carried out by systematically modeling diminutive formation in the paradigm of finite-state morphology. This allowed MorphoBr to significantly outperform analogous resources in the coverage of diminutives. The first evaluation results show MorphoBr to be a promising initiative which will directly contribute to the development of more robust natural language processing tools and applications which depend on wide-coverage morphological analysis.KEYWORDS: computational linguistics; natural language processing; morphological analysis; full-form lexicon; diminutive formation. RESUMO: Um dos pré-requisitos para muitas tecnologias de processamento de linguagem natural é a disponibilidade de vastos recursos lexicais. Este artigo trata do MorphoBr, um projeto em desenvolvimento voltado para a construção de um léxico de formas plenas abrangente para a análise morfológica do português. Uma primeira versão do recurso já está disponível gratuitamente on-line sob uma licença de software livre e de código aberto. MorphoBr combina recursos livres análogos, corrigindo vários milhares de erros e lacunas. Em comparação com os recursos integrados, as entradas lexicais do MorphoBr seguem um formato mais amigável, o qual pode ser compilado diretamente em transdutores de estados finitos para análise morfológica, por exemplo, no contexto do parsing sintático com uma gramática no formalismo da LFG usando o sistema XLE. MorphoBr resulta de uma combinação de técnicas computacionais. Erros e lacunas mais óbvias nos recursos integrados foram automaticamente corrigidos com scripts. No entanto, a principal contribuição de MorphoBr é a expansão no inventário de substantivos e adjetivos. Isso foi alcançado pela modelação sistemática da formação de diminutivos no paradigma da morfologia de estados finitos. Isso possibilitou a MorphoBr superar de forma significativa recursos análogos na cobertura de diminutivos. Os primeiros resultados de avaliação mostram que o MorphoBr constitui uma iniciativa promissora que contribuirá de forma direta para conferir robustez a ferramentas e aplicações de processamento de linguagem natural que dependem de análise morfológica de ampla cobertura.PALAVRAS-CHAVE: linguística computacional; processamento de linguagem natural; análise morfológica; léxico de formas plenas; formação de diminutivos.Universidade Federal de Minas Gerais2018-12-26info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://periodicos.ufmg.br/index.php/textolivre/article/view/1680910.17851/1983-3652.11.3.1-25Texto Livre; Vol. 11 No. 3 (2018): Texto Livre: Linguagem e Tecnologia; 1-25Texto Livre; Vol. 11 Núm. 3 (2018): Texto Livre: Linguagem e Tecnologia; 1-25Texto Livre; Vol. 11 No 3 (2018): Texto Livre: Linguagem e Tecnologia; 1-25Texto Livre; v. 11 n. 3 (2018): Texto Livre: Linguagem e Tecnologia; 1-251983-3652reponame:Texto livreinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGenghttps://periodicos.ufmg.br/index.php/textolivre/article/view/16809/13570Copyright (c) 2018 Texto Livre: Linguagem e Tecnologiainfo:eu-repo/semantics/openAccessFigueiredo de Alencar, LeonelCuconato, BrunoRademaker, Alexandre2021-03-22T13:32:34Zoai:periodicos.ufmg.br:article/16809Revistahttp://www.periodicos.letras.ufmg.br/index.php/textolivrePUBhttps://periodicos.ufmg.br/index.php/textolivre/oairevistatextolivre@letras.ufmg.br1983-36521983-3652opendoar:2021-03-22T13:32:34Texto livre - Universidade Federal de Minas Gerais (UFMG)false
dc.title.none.fl_str_mv MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese
title MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese
spellingShingle MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese
Figueiredo de Alencar, Leonel
computational linguistics
natural language processing
morphological analysis
full-form lexicon
diminutive formation
title_short MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese
title_full MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese
title_fullStr MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese
title_full_unstemmed MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese
title_sort MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese
author Figueiredo de Alencar, Leonel
author_facet Figueiredo de Alencar, Leonel
Cuconato, Bruno
Rademaker, Alexandre
author_role author
author2 Cuconato, Bruno
Rademaker, Alexandre
author2_role author
author
dc.contributor.author.fl_str_mv Figueiredo de Alencar, Leonel
Cuconato, Bruno
Rademaker, Alexandre
dc.subject.por.fl_str_mv computational linguistics
natural language processing
morphological analysis
full-form lexicon
diminutive formation
topic computational linguistics
natural language processing
morphological analysis
full-form lexicon
diminutive formation
description ABSTRACT: One of the prerequisites for many natural language processing technologies is the availability of large lexical resources. This paper reports on MorphoBr, an ongoing project aiming at building a comprehensive full-form lexicon for morphological analysis of Portuguese. A first version of the resource is already freely available online under an open source, free software license. MorphoBr combines analogous free resources, correcting several thousand errors and gaps, and systematically adding new entries. In comparison to the integrated resources, lexical entries in MorphoBr follow a more user-friendly format, which can be straightforwardly compiled into finite-state transducers for morphological analysis, e.g. in the context of syntactic parsing with a grammar in the LFG formalism using the XLE system. MorphoBr results from a combination of computational techniques. Errors and the more obvious gaps in the integrated resources were automatically corrected with scripts. However, MorphoBr's main contribution is the expansion in the inventory of nouns and adjectives. This was carried out by systematically modeling diminutive formation in the paradigm of finite-state morphology. This allowed MorphoBr to significantly outperform analogous resources in the coverage of diminutives. The first evaluation results show MorphoBr to be a promising initiative which will directly contribute to the development of more robust natural language processing tools and applications which depend on wide-coverage morphological analysis.KEYWORDS: computational linguistics; natural language processing; morphological analysis; full-form lexicon; diminutive formation. RESUMO: Um dos pré-requisitos para muitas tecnologias de processamento de linguagem natural é a disponibilidade de vastos recursos lexicais. Este artigo trata do MorphoBr, um projeto em desenvolvimento voltado para a construção de um léxico de formas plenas abrangente para a análise morfológica do português. Uma primeira versão do recurso já está disponível gratuitamente on-line sob uma licença de software livre e de código aberto. MorphoBr combina recursos livres análogos, corrigindo vários milhares de erros e lacunas. Em comparação com os recursos integrados, as entradas lexicais do MorphoBr seguem um formato mais amigável, o qual pode ser compilado diretamente em transdutores de estados finitos para análise morfológica, por exemplo, no contexto do parsing sintático com uma gramática no formalismo da LFG usando o sistema XLE. MorphoBr resulta de uma combinação de técnicas computacionais. Erros e lacunas mais óbvias nos recursos integrados foram automaticamente corrigidos com scripts. No entanto, a principal contribuição de MorphoBr é a expansão no inventário de substantivos e adjetivos. Isso foi alcançado pela modelação sistemática da formação de diminutivos no paradigma da morfologia de estados finitos. Isso possibilitou a MorphoBr superar de forma significativa recursos análogos na cobertura de diminutivos. Os primeiros resultados de avaliação mostram que o MorphoBr constitui uma iniciativa promissora que contribuirá de forma direta para conferir robustez a ferramentas e aplicações de processamento de linguagem natural que dependem de análise morfológica de ampla cobertura.PALAVRAS-CHAVE: linguística computacional; processamento de linguagem natural; análise morfológica; léxico de formas plenas; formação de diminutivos.
publishDate 2018
dc.date.none.fl_str_mv 2018-12-26
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://periodicos.ufmg.br/index.php/textolivre/article/view/16809
10.17851/1983-3652.11.3.1-25
url https://periodicos.ufmg.br/index.php/textolivre/article/view/16809
identifier_str_mv 10.17851/1983-3652.11.3.1-25
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv https://periodicos.ufmg.br/index.php/textolivre/article/view/16809/13570
dc.rights.driver.fl_str_mv Copyright (c) 2018 Texto Livre: Linguagem e Tecnologia
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Copyright (c) 2018 Texto Livre: Linguagem e Tecnologia
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv Texto Livre; Vol. 11 No. 3 (2018): Texto Livre: Linguagem e Tecnologia; 1-25
Texto Livre; Vol. 11 Núm. 3 (2018): Texto Livre: Linguagem e Tecnologia; 1-25
Texto Livre; Vol. 11 No 3 (2018): Texto Livre: Linguagem e Tecnologia; 1-25
Texto Livre; v. 11 n. 3 (2018): Texto Livre: Linguagem e Tecnologia; 1-25
1983-3652
reponame:Texto livre
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Texto livre
collection Texto livre
repository.name.fl_str_mv Texto livre - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv revistatextolivre@letras.ufmg.br
_version_ 1799711142446104576