Avaliação de recursos computacionais para o português
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Outros Autores: | , , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.14/32215 |
Resumo: | There are several tools for the Portuguese language. However, and due to different choices at the basis of these tools' behaviour (different preprocessing, different labels, etc.), it becomes difficult to have an idea of each one's comparative performance. In this work, we propose an evaluation of tools, publicly available and free, that perform the tasks of Part-of-Speech Tagging and Named Entity Recognition, for the Portuguese language. We evaluate twelve different models for the first task and eight for the second. All the resources used in this evaluation (mapping tables between labels, testing corpora, etc.) will be made available, allowing to replicate/fine-tune the results here presented. We also present a qualitative analysis of two dependency parsers. To the best of our knowledge, no recent work that considers the recent available tools, was carried out for the Portuguese language. |
id |
RCAP_7d775cea6ac1741c71d9dd59c1b50f87 |
---|---|
oai_identifier_str |
oai:repositorio.ucp.pt:10400.14/32215 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Avaliação de recursos computacionais para o portuguêsEvaluating computational resources for PortugueseDependency parsingEvaluation of resourcesNamed entity recognitionNatural language processingPart-of-speech taggingPortuguese languageProcessamento da linguagem naturalAvaliação de recursosLíngua portuguesaAnálise morfosintáticaReconhecimento de entidades mencionadasAnálise de dependênciasThere are several tools for the Portuguese language. However, and due to different choices at the basis of these tools' behaviour (different preprocessing, different labels, etc.), it becomes difficult to have an idea of each one's comparative performance. In this work, we propose an evaluation of tools, publicly available and free, that perform the tasks of Part-of-Speech Tagging and Named Entity Recognition, for the Portuguese language. We evaluate twelve different models for the first task and eight for the second. All the resources used in this evaluation (mapping tables between labels, testing corpora, etc.) will be made available, allowing to replicate/fine-tune the results here presented. We also present a qualitative analysis of two dependency parsers. To the best of our knowledge, no recent work that considers the recent available tools, was carried out for the Portuguese language.Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliação (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto é, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa.Veritati - Repositório Institucional da Universidade Católica PortuguesaGoncalves, MatildeCoheur, LuisaBaptista, JorgeMineiro, Ana2021-03-16T12:24:58Z20212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttp://hdl.handle.net/10400.14/32215por1647-081810.21814/LM.12.2.33185100084313000605072700004info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-12T01:33:53Zoai:repositorio.ucp.pt:10400.14/32215Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:25:59.895561Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Avaliação de recursos computacionais para o português Evaluating computational resources for Portuguese |
title |
Avaliação de recursos computacionais para o português |
spellingShingle |
Avaliação de recursos computacionais para o português Goncalves, Matilde Dependency parsing Evaluation of resources Named entity recognition Natural language processing Part-of-speech tagging Portuguese language Processamento da linguagem natural Avaliação de recursos Língua portuguesa Análise morfosintática Reconhecimento de entidades mencionadas Análise de dependências |
title_short |
Avaliação de recursos computacionais para o português |
title_full |
Avaliação de recursos computacionais para o português |
title_fullStr |
Avaliação de recursos computacionais para o português |
title_full_unstemmed |
Avaliação de recursos computacionais para o português |
title_sort |
Avaliação de recursos computacionais para o português |
author |
Goncalves, Matilde |
author_facet |
Goncalves, Matilde Coheur, Luisa Baptista, Jorge Mineiro, Ana |
author_role |
author |
author2 |
Coheur, Luisa Baptista, Jorge Mineiro, Ana |
author2_role |
author author author |
dc.contributor.none.fl_str_mv |
Veritati - Repositório Institucional da Universidade Católica Portuguesa |
dc.contributor.author.fl_str_mv |
Goncalves, Matilde Coheur, Luisa Baptista, Jorge Mineiro, Ana |
dc.subject.por.fl_str_mv |
Dependency parsing Evaluation of resources Named entity recognition Natural language processing Part-of-speech tagging Portuguese language Processamento da linguagem natural Avaliação de recursos Língua portuguesa Análise morfosintática Reconhecimento de entidades mencionadas Análise de dependências |
topic |
Dependency parsing Evaluation of resources Named entity recognition Natural language processing Part-of-speech tagging Portuguese language Processamento da linguagem natural Avaliação de recursos Língua portuguesa Análise morfosintática Reconhecimento de entidades mencionadas Análise de dependências |
description |
There are several tools for the Portuguese language. However, and due to different choices at the basis of these tools' behaviour (different preprocessing, different labels, etc.), it becomes difficult to have an idea of each one's comparative performance. In this work, we propose an evaluation of tools, publicly available and free, that perform the tasks of Part-of-Speech Tagging and Named Entity Recognition, for the Portuguese language. We evaluate twelve different models for the first task and eight for the second. All the resources used in this evaluation (mapping tables between labels, testing corpora, etc.) will be made available, allowing to replicate/fine-tune the results here presented. We also present a qualitative analysis of two dependency parsers. To the best of our knowledge, no recent work that considers the recent available tools, was carried out for the Portuguese language. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-03-16T12:24:58Z 2021 2021-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.14/32215 |
url |
http://hdl.handle.net/10400.14/32215 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
1647-0818 10.21814/LM.12.2.331 85100084313 000605072700004 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799131976024719360 |