Avaliação de recursos computacionais para o português

Detalhes bibliográficos
Autor(a) principal: Goncalves, Matilde
Data de Publicação: 2021
Outros Autores: Coheur, Luisa, Baptista, Jorge, Mineiro, Ana
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.14/32215
Resumo: There are several tools for the Portuguese language. However, and due to different choices at the basis of these tools' behaviour (different preprocessing, different labels, etc.), it becomes difficult to have an idea of each one's comparative performance. In this work, we propose an evaluation of tools, publicly available and free, that perform the tasks of Part-of-Speech Tagging and Named Entity Recognition, for the Portuguese language. We evaluate twelve different models for the first task and eight for the second. All the resources used in this evaluation (mapping tables between labels, testing corpora, etc.) will be made available, allowing to replicate/fine-tune the results here presented. We also present a qualitative analysis of two dependency parsers. To the best of our knowledge, no recent work that considers the recent available tools, was carried out for the Portuguese language.
id RCAP_7d775cea6ac1741c71d9dd59c1b50f87
oai_identifier_str oai:repositorio.ucp.pt:10400.14/32215
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Avaliação de recursos computacionais para o portuguêsEvaluating computational resources for PortugueseDependency parsingEvaluation of resourcesNamed entity recognitionNatural language processingPart-of-speech taggingPortuguese languageProcessamento da linguagem naturalAvaliação de recursosLíngua portuguesaAnálise morfosintáticaReconhecimento de entidades mencionadasAnálise de dependênciasThere are several tools for the Portuguese language. However, and due to different choices at the basis of these tools' behaviour (different preprocessing, different labels, etc.), it becomes difficult to have an idea of each one's comparative performance. In this work, we propose an evaluation of tools, publicly available and free, that perform the tasks of Part-of-Speech Tagging and Named Entity Recognition, for the Portuguese language. We evaluate twelve different models for the first task and eight for the second. All the resources used in this evaluation (mapping tables between labels, testing corpora, etc.) will be made available, allowing to replicate/fine-tune the results here presented. We also present a qualitative analysis of two dependency parsers. To the best of our knowledge, no recent work that considers the recent available tools, was carried out for the Portuguese language.Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliação (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto é, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa.Veritati - Repositório Institucional da Universidade Católica PortuguesaGoncalves, MatildeCoheur, LuisaBaptista, JorgeMineiro, Ana2021-03-16T12:24:58Z20212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttp://hdl.handle.net/10400.14/32215por1647-081810.21814/LM.12.2.33185100084313000605072700004info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-12T01:33:53Zoai:repositorio.ucp.pt:10400.14/32215Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:25:59.895561Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Avaliação de recursos computacionais para o português
Evaluating computational resources for Portuguese
title Avaliação de recursos computacionais para o português
spellingShingle Avaliação de recursos computacionais para o português
Goncalves, Matilde
Dependency parsing
Evaluation of resources
Named entity recognition
Natural language processing
Part-of-speech tagging
Portuguese language
Processamento da linguagem natural
Avaliação de recursos
Língua portuguesa
Análise morfosintática
Reconhecimento de entidades mencionadas
Análise de dependências
title_short Avaliação de recursos computacionais para o português
title_full Avaliação de recursos computacionais para o português
title_fullStr Avaliação de recursos computacionais para o português
title_full_unstemmed Avaliação de recursos computacionais para o português
title_sort Avaliação de recursos computacionais para o português
author Goncalves, Matilde
author_facet Goncalves, Matilde
Coheur, Luisa
Baptista, Jorge
Mineiro, Ana
author_role author
author2 Coheur, Luisa
Baptista, Jorge
Mineiro, Ana
author2_role author
author
author
dc.contributor.none.fl_str_mv Veritati - Repositório Institucional da Universidade Católica Portuguesa
dc.contributor.author.fl_str_mv Goncalves, Matilde
Coheur, Luisa
Baptista, Jorge
Mineiro, Ana
dc.subject.por.fl_str_mv Dependency parsing
Evaluation of resources
Named entity recognition
Natural language processing
Part-of-speech tagging
Portuguese language
Processamento da linguagem natural
Avaliação de recursos
Língua portuguesa
Análise morfosintática
Reconhecimento de entidades mencionadas
Análise de dependências
topic Dependency parsing
Evaluation of resources
Named entity recognition
Natural language processing
Part-of-speech tagging
Portuguese language
Processamento da linguagem natural
Avaliação de recursos
Língua portuguesa
Análise morfosintática
Reconhecimento de entidades mencionadas
Análise de dependências
description There are several tools for the Portuguese language. However, and due to different choices at the basis of these tools' behaviour (different preprocessing, different labels, etc.), it becomes difficult to have an idea of each one's comparative performance. In this work, we propose an evaluation of tools, publicly available and free, that perform the tasks of Part-of-Speech Tagging and Named Entity Recognition, for the Portuguese language. We evaluate twelve different models for the first task and eight for the second. All the resources used in this evaluation (mapping tables between labels, testing corpora, etc.) will be made available, allowing to replicate/fine-tune the results here presented. We also present a qualitative analysis of two dependency parsers. To the best of our knowledge, no recent work that considers the recent available tools, was carried out for the Portuguese language.
publishDate 2021
dc.date.none.fl_str_mv 2021-03-16T12:24:58Z
2021
2021-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.14/32215
url http://hdl.handle.net/10400.14/32215
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 1647-0818
10.21814/LM.12.2.331
85100084313
000605072700004
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799131976024719360