Avaliação de recursos computacionais para o português
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Outros Autores: | , , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://doi.org/10.21814/lm.12.2.331 |
Resumo: | Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliação (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto é, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa. |
id |
RCAP_1811b7c38c8ee3700274e1e33bf8d764 |
---|---|
oai_identifier_str |
oai:linguamatica.com:article/331 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Avaliação de recursos computacionais para o portuguêsEvaluating computational resources for PortugueseAvaliação de recursos computacionais para o portuguêsnatural language processingevaluation of resourcesportuguese languagepart-of-speech taggingnamed entity recognitiondependency parsingprocessamento da linguagem naturalavaliação de recursoslíngua portuguesaanálise morfosintáticareconhecimento de entidades mencionadasanálise de dependências Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliação (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto é, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa. There are several tools for the Portuguese language. However, and due to different choices at the basis of these tools' behaviour (different pre-processing, different labels, etc.), it becomes difficult to have an idea of each one's comparative performance. In this work, we propose an evaluation of tools, publicly available and free, that perform the tasks of Part-of-Speech Tagging and Named Entity Recognition, for the Portuguese language. We evaluate twelve different models for the first task and eight for the second. All the resources used in this evaluation (mapping tables between labels, testing corpora, etc.) will be made available, allowing to replicate/fine-tune the results here presented. We also present a qualitative analysis of two dependency parsers. To the best of our knowledge, no recent work that considers the recent available tools, was carried out for the Portuguese language. Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliação (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto é, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa.Universidade do Minho e Universidade de Vigo2020-12-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.12.2.331https://doi.org/10.21814/lm.12.2.331Linguamática; Vol. 12 No. 2; 51-68Linguamática; Vol. 12 Núm. 2; 51-68Linguamática; v. 12 n. 2; 51-681647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/331https://linguamatica.com/index.php/linguamatica/article/view/331/471Direitos de Autor (c) 2020 Matilde Gonçalves, Luisa Coheur, Jorge Baptista, Ana Mineirohttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessGonçalves, MatildeCoheur, LuisaBaptista, JorgeMineiro, Ana2023-09-08T13:46:43Zoai:linguamatica.com:article/331Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:40.096498Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Avaliação de recursos computacionais para o português Evaluating computational resources for Portuguese Avaliação de recursos computacionais para o português |
title |
Avaliação de recursos computacionais para o português |
spellingShingle |
Avaliação de recursos computacionais para o português Gonçalves, Matilde natural language processing evaluation of resources portuguese language part-of-speech tagging named entity recognition dependency parsing processamento da linguagem natural avaliação de recursos língua portuguesa análise morfosintática reconhecimento de entidades mencionadas análise de dependências |
title_short |
Avaliação de recursos computacionais para o português |
title_full |
Avaliação de recursos computacionais para o português |
title_fullStr |
Avaliação de recursos computacionais para o português |
title_full_unstemmed |
Avaliação de recursos computacionais para o português |
title_sort |
Avaliação de recursos computacionais para o português |
author |
Gonçalves, Matilde |
author_facet |
Gonçalves, Matilde Coheur, Luisa Baptista, Jorge Mineiro, Ana |
author_role |
author |
author2 |
Coheur, Luisa Baptista, Jorge Mineiro, Ana |
author2_role |
author author author |
dc.contributor.author.fl_str_mv |
Gonçalves, Matilde Coheur, Luisa Baptista, Jorge Mineiro, Ana |
dc.subject.por.fl_str_mv |
natural language processing evaluation of resources portuguese language part-of-speech tagging named entity recognition dependency parsing processamento da linguagem natural avaliação de recursos língua portuguesa análise morfosintática reconhecimento de entidades mencionadas análise de dependências |
topic |
natural language processing evaluation of resources portuguese language part-of-speech tagging named entity recognition dependency parsing processamento da linguagem natural avaliação de recursos língua portuguesa análise morfosintática reconhecimento de entidades mencionadas análise de dependências |
description |
Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliação (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto é, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-12-31 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://doi.org/10.21814/lm.12.2.331 https://doi.org/10.21814/lm.12.2.331 |
url |
https://doi.org/10.21814/lm.12.2.331 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/331 https://linguamatica.com/index.php/linguamatica/article/view/331/471 |
dc.rights.driver.fl_str_mv |
Direitos de Autor (c) 2020 Matilde Gonçalves, Luisa Coheur, Jorge Baptista, Ana Mineiro http://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Direitos de Autor (c) 2020 Matilde Gonçalves, Luisa Coheur, Jorge Baptista, Ana Mineiro http://creativecommons.org/licenses/by/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
dc.source.none.fl_str_mv |
Linguamática; Vol. 12 No. 2; 51-68 Linguamática; Vol. 12 Núm. 2; 51-68 Linguamática; v. 12 n. 2; 51-68 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133554057150464 |