MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Outros Autores: | , |
Tipo de documento: | Artigo |
Idioma: | eng |
Título da fonte: | Texto livre |
Texto Completo: | https://periodicos.ufmg.br/index.php/textolivre/article/view/16809 |
Resumo: | ABSTRACT: One of the prerequisites for many natural language processing technologies is the availability of large lexical resources. This paper reports on MorphoBr, an ongoing project aiming at building a comprehensive full-form lexicon for morphological analysis of Portuguese. A first version of the resource is already freely available online under an open source, free software license. MorphoBr combines analogous free resources, correcting several thousand errors and gaps, and systematically adding new entries. In comparison to the integrated resources, lexical entries in MorphoBr follow a more user-friendly format, which can be straightforwardly compiled into finite-state transducers for morphological analysis, e.g. in the context of syntactic parsing with a grammar in the LFG formalism using the XLE system. MorphoBr results from a combination of computational techniques. Errors and the more obvious gaps in the integrated resources were automatically corrected with scripts. However, MorphoBr's main contribution is the expansion in the inventory of nouns and adjectives. This was carried out by systematically modeling diminutive formation in the paradigm of finite-state morphology. This allowed MorphoBr to significantly outperform analogous resources in the coverage of diminutives. The first evaluation results show MorphoBr to be a promising initiative which will directly contribute to the development of more robust natural language processing tools and applications which depend on wide-coverage morphological analysis.KEYWORDS: computational linguistics; natural language processing; morphological analysis; full-form lexicon; diminutive formation. RESUMO: Um dos pré-requisitos para muitas tecnologias de processamento de linguagem natural é a disponibilidade de vastos recursos lexicais. Este artigo trata do MorphoBr, um projeto em desenvolvimento voltado para a construção de um léxico de formas plenas abrangente para a análise morfológica do português. Uma primeira versão do recurso já está disponível gratuitamente on-line sob uma licença de software livre e de código aberto. MorphoBr combina recursos livres análogos, corrigindo vários milhares de erros e lacunas. Em comparação com os recursos integrados, as entradas lexicais do MorphoBr seguem um formato mais amigável, o qual pode ser compilado diretamente em transdutores de estados finitos para análise morfológica, por exemplo, no contexto do parsing sintático com uma gramática no formalismo da LFG usando o sistema XLE. MorphoBr resulta de uma combinação de técnicas computacionais. Erros e lacunas mais óbvias nos recursos integrados foram automaticamente corrigidos com scripts. No entanto, a principal contribuição de MorphoBr é a expansão no inventário de substantivos e adjetivos. Isso foi alcançado pela modelação sistemática da formação de diminutivos no paradigma da morfologia de estados finitos. Isso possibilitou a MorphoBr superar de forma significativa recursos análogos na cobertura de diminutivos. Os primeiros resultados de avaliação mostram que o MorphoBr constitui uma iniciativa promissora que contribuirá de forma direta para conferir robustez a ferramentas e aplicações de processamento de linguagem natural que dependem de análise morfológica de ampla cobertura.PALAVRAS-CHAVE: linguística computacional; processamento de linguagem natural; análise morfológica; léxico de formas plenas; formação de diminutivos. |
id |
UFMG-9_0ffda67fc34248660ce4bf304ec96e6d |
---|---|
oai_identifier_str |
oai:periodicos.ufmg.br:article/16809 |
network_acronym_str |
UFMG-9 |
network_name_str |
Texto livre |
repository_id_str |
|
spelling |
MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguesecomputational linguisticsnatural language processingmorphological analysisfull-form lexicondiminutive formationABSTRACT: One of the prerequisites for many natural language processing technologies is the availability of large lexical resources. This paper reports on MorphoBr, an ongoing project aiming at building a comprehensive full-form lexicon for morphological analysis of Portuguese. A first version of the resource is already freely available online under an open source, free software license. MorphoBr combines analogous free resources, correcting several thousand errors and gaps, and systematically adding new entries. In comparison to the integrated resources, lexical entries in MorphoBr follow a more user-friendly format, which can be straightforwardly compiled into finite-state transducers for morphological analysis, e.g. in the context of syntactic parsing with a grammar in the LFG formalism using the XLE system. MorphoBr results from a combination of computational techniques. Errors and the more obvious gaps in the integrated resources were automatically corrected with scripts. However, MorphoBr's main contribution is the expansion in the inventory of nouns and adjectives. This was carried out by systematically modeling diminutive formation in the paradigm of finite-state morphology. This allowed MorphoBr to significantly outperform analogous resources in the coverage of diminutives. The first evaluation results show MorphoBr to be a promising initiative which will directly contribute to the development of more robust natural language processing tools and applications which depend on wide-coverage morphological analysis.KEYWORDS: computational linguistics; natural language processing; morphological analysis; full-form lexicon; diminutive formation. RESUMO: Um dos pré-requisitos para muitas tecnologias de processamento de linguagem natural é a disponibilidade de vastos recursos lexicais. Este artigo trata do MorphoBr, um projeto em desenvolvimento voltado para a construção de um léxico de formas plenas abrangente para a análise morfológica do português. Uma primeira versão do recurso já está disponível gratuitamente on-line sob uma licença de software livre e de código aberto. MorphoBr combina recursos livres análogos, corrigindo vários milhares de erros e lacunas. Em comparação com os recursos integrados, as entradas lexicais do MorphoBr seguem um formato mais amigável, o qual pode ser compilado diretamente em transdutores de estados finitos para análise morfológica, por exemplo, no contexto do parsing sintático com uma gramática no formalismo da LFG usando o sistema XLE. MorphoBr resulta de uma combinação de técnicas computacionais. Erros e lacunas mais óbvias nos recursos integrados foram automaticamente corrigidos com scripts. No entanto, a principal contribuição de MorphoBr é a expansão no inventário de substantivos e adjetivos. Isso foi alcançado pela modelação sistemática da formação de diminutivos no paradigma da morfologia de estados finitos. Isso possibilitou a MorphoBr superar de forma significativa recursos análogos na cobertura de diminutivos. Os primeiros resultados de avaliação mostram que o MorphoBr constitui uma iniciativa promissora que contribuirá de forma direta para conferir robustez a ferramentas e aplicações de processamento de linguagem natural que dependem de análise morfológica de ampla cobertura.PALAVRAS-CHAVE: linguística computacional; processamento de linguagem natural; análise morfológica; léxico de formas plenas; formação de diminutivos.Universidade Federal de Minas Gerais2018-12-26info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://periodicos.ufmg.br/index.php/textolivre/article/view/1680910.17851/1983-3652.11.3.1-25Texto Livre; Vol. 11 No. 3 (2018): Texto Livre: Linguagem e Tecnologia; 1-25Texto Livre; Vol. 11 Núm. 3 (2018): Texto Livre: Linguagem e Tecnologia; 1-25Texto Livre; Vol. 11 No 3 (2018): Texto Livre: Linguagem e Tecnologia; 1-25Texto Livre; v. 11 n. 3 (2018): Texto Livre: Linguagem e Tecnologia; 1-251983-3652reponame:Texto livreinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGenghttps://periodicos.ufmg.br/index.php/textolivre/article/view/16809/13570Copyright (c) 2018 Texto Livre: Linguagem e Tecnologiainfo:eu-repo/semantics/openAccessFigueiredo de Alencar, LeonelCuconato, BrunoRademaker, Alexandre2021-03-22T13:32:34Zoai:periodicos.ufmg.br:article/16809Revistahttp://www.periodicos.letras.ufmg.br/index.php/textolivrePUBhttps://periodicos.ufmg.br/index.php/textolivre/oairevistatextolivre@letras.ufmg.br1983-36521983-3652opendoar:2021-03-22T13:32:34Texto livre - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.none.fl_str_mv |
MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese |
title |
MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese |
spellingShingle |
MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese Figueiredo de Alencar, Leonel computational linguistics natural language processing morphological analysis full-form lexicon diminutive formation |
title_short |
MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese |
title_full |
MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese |
title_fullStr |
MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese |
title_full_unstemmed |
MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese |
title_sort |
MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese |
author |
Figueiredo de Alencar, Leonel |
author_facet |
Figueiredo de Alencar, Leonel Cuconato, Bruno Rademaker, Alexandre |
author_role |
author |
author2 |
Cuconato, Bruno Rademaker, Alexandre |
author2_role |
author author |
dc.contributor.author.fl_str_mv |
Figueiredo de Alencar, Leonel Cuconato, Bruno Rademaker, Alexandre |
dc.subject.por.fl_str_mv |
computational linguistics natural language processing morphological analysis full-form lexicon diminutive formation |
topic |
computational linguistics natural language processing morphological analysis full-form lexicon diminutive formation |
description |
ABSTRACT: One of the prerequisites for many natural language processing technologies is the availability of large lexical resources. This paper reports on MorphoBr, an ongoing project aiming at building a comprehensive full-form lexicon for morphological analysis of Portuguese. A first version of the resource is already freely available online under an open source, free software license. MorphoBr combines analogous free resources, correcting several thousand errors and gaps, and systematically adding new entries. In comparison to the integrated resources, lexical entries in MorphoBr follow a more user-friendly format, which can be straightforwardly compiled into finite-state transducers for morphological analysis, e.g. in the context of syntactic parsing with a grammar in the LFG formalism using the XLE system. MorphoBr results from a combination of computational techniques. Errors and the more obvious gaps in the integrated resources were automatically corrected with scripts. However, MorphoBr's main contribution is the expansion in the inventory of nouns and adjectives. This was carried out by systematically modeling diminutive formation in the paradigm of finite-state morphology. This allowed MorphoBr to significantly outperform analogous resources in the coverage of diminutives. The first evaluation results show MorphoBr to be a promising initiative which will directly contribute to the development of more robust natural language processing tools and applications which depend on wide-coverage morphological analysis.KEYWORDS: computational linguistics; natural language processing; morphological analysis; full-form lexicon; diminutive formation. RESUMO: Um dos pré-requisitos para muitas tecnologias de processamento de linguagem natural é a disponibilidade de vastos recursos lexicais. Este artigo trata do MorphoBr, um projeto em desenvolvimento voltado para a construção de um léxico de formas plenas abrangente para a análise morfológica do português. Uma primeira versão do recurso já está disponível gratuitamente on-line sob uma licença de software livre e de código aberto. MorphoBr combina recursos livres análogos, corrigindo vários milhares de erros e lacunas. Em comparação com os recursos integrados, as entradas lexicais do MorphoBr seguem um formato mais amigável, o qual pode ser compilado diretamente em transdutores de estados finitos para análise morfológica, por exemplo, no contexto do parsing sintático com uma gramática no formalismo da LFG usando o sistema XLE. MorphoBr resulta de uma combinação de técnicas computacionais. Erros e lacunas mais óbvias nos recursos integrados foram automaticamente corrigidos com scripts. No entanto, a principal contribuição de MorphoBr é a expansão no inventário de substantivos e adjetivos. Isso foi alcançado pela modelação sistemática da formação de diminutivos no paradigma da morfologia de estados finitos. Isso possibilitou a MorphoBr superar de forma significativa recursos análogos na cobertura de diminutivos. Os primeiros resultados de avaliação mostram que o MorphoBr constitui uma iniciativa promissora que contribuirá de forma direta para conferir robustez a ferramentas e aplicações de processamento de linguagem natural que dependem de análise morfológica de ampla cobertura.PALAVRAS-CHAVE: linguística computacional; processamento de linguagem natural; análise morfológica; léxico de formas plenas; formação de diminutivos. |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-12-26 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://periodicos.ufmg.br/index.php/textolivre/article/view/16809 10.17851/1983-3652.11.3.1-25 |
url |
https://periodicos.ufmg.br/index.php/textolivre/article/view/16809 |
identifier_str_mv |
10.17851/1983-3652.11.3.1-25 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
https://periodicos.ufmg.br/index.php/textolivre/article/view/16809/13570 |
dc.rights.driver.fl_str_mv |
Copyright (c) 2018 Texto Livre: Linguagem e Tecnologia info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Copyright (c) 2018 Texto Livre: Linguagem e Tecnologia |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
Texto Livre; Vol. 11 No. 3 (2018): Texto Livre: Linguagem e Tecnologia; 1-25 Texto Livre; Vol. 11 Núm. 3 (2018): Texto Livre: Linguagem e Tecnologia; 1-25 Texto Livre; Vol. 11 No 3 (2018): Texto Livre: Linguagem e Tecnologia; 1-25 Texto Livre; v. 11 n. 3 (2018): Texto Livre: Linguagem e Tecnologia; 1-25 1983-3652 reponame:Texto livre instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Texto livre |
collection |
Texto livre |
repository.name.fl_str_mv |
Texto livre - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
revistatextolivre@letras.ufmg.br |
_version_ |
1799711142446104576 |