Avaliação de recursos computacionais para o português

Detalhes bibliográficos
Autor(a) principal: Gonçalves, Matilde
Data de Publicação: 2020
Outros Autores: Coheur, Luisa, Baptista, Jorge, Mineiro, Ana
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://doi.org/10.21814/lm.12.2.331
Resumo:  Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliação (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto é, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa.
id RCAP_1811b7c38c8ee3700274e1e33bf8d764
oai_identifier_str oai:linguamatica.com:article/331
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Avaliação de recursos computacionais para o portuguêsEvaluating computational resources for PortugueseAvaliação de recursos computacionais para o portuguêsnatural language processingevaluation of resourcesportuguese languagepart-of-speech taggingnamed entity recognitiondependency parsingprocessamento da linguagem naturalavaliação de recursoslíngua portuguesaanálise morfosintáticareconhecimento de entidades mencionadasanálise de dependências Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliação (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto é, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa. There are several tools for the Portuguese language. However, and due to different choices at the basis of these tools' behaviour (different pre-processing, different labels, etc.), it becomes difficult to have an idea of each one's comparative performance. In this work, we propose an evaluation of tools, publicly available and free, that perform the tasks of Part-of-Speech Tagging and Named Entity Recognition, for the Portuguese language. We evaluate twelve different models for the first task and eight for the second. All the resources used in this evaluation (mapping tables between labels, testing corpora, etc.) will be made available, allowing to replicate/fine-tune the results here presented. We also present a qualitative analysis of two dependency parsers. To the best of our knowledge, no recent work that considers the recent available tools, was carried out for the Portuguese language. Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliação (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto é, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa.Universidade do Minho e Universidade de Vigo2020-12-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.12.2.331https://doi.org/10.21814/lm.12.2.331Linguamática; Vol. 12 No. 2; 51-68Linguamática; Vol. 12 Núm. 2; 51-68Linguamática; v. 12 n. 2; 51-681647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/331https://linguamatica.com/index.php/linguamatica/article/view/331/471Direitos de Autor (c) 2020 Matilde Gonçalves, Luisa Coheur, Jorge Baptista, Ana Mineirohttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessGonçalves, MatildeCoheur, LuisaBaptista, JorgeMineiro, Ana2023-09-08T13:46:43Zoai:linguamatica.com:article/331Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:40.096498Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Avaliação de recursos computacionais para o português
Evaluating computational resources for Portuguese
Avaliação de recursos computacionais para o português
title Avaliação de recursos computacionais para o português
spellingShingle Avaliação de recursos computacionais para o português
Gonçalves, Matilde
natural language processing
evaluation of resources
portuguese language
part-of-speech tagging
named entity recognition
dependency parsing
processamento da linguagem natural
avaliação de recursos
língua portuguesa
análise morfosintática
reconhecimento de entidades mencionadas
análise de dependências
title_short Avaliação de recursos computacionais para o português
title_full Avaliação de recursos computacionais para o português
title_fullStr Avaliação de recursos computacionais para o português
title_full_unstemmed Avaliação de recursos computacionais para o português
title_sort Avaliação de recursos computacionais para o português
author Gonçalves, Matilde
author_facet Gonçalves, Matilde
Coheur, Luisa
Baptista, Jorge
Mineiro, Ana
author_role author
author2 Coheur, Luisa
Baptista, Jorge
Mineiro, Ana
author2_role author
author
author
dc.contributor.author.fl_str_mv Gonçalves, Matilde
Coheur, Luisa
Baptista, Jorge
Mineiro, Ana
dc.subject.por.fl_str_mv natural language processing
evaluation of resources
portuguese language
part-of-speech tagging
named entity recognition
dependency parsing
processamento da linguagem natural
avaliação de recursos
língua portuguesa
análise morfosintática
reconhecimento de entidades mencionadas
análise de dependências
topic natural language processing
evaluation of resources
portuguese language
part-of-speech tagging
named entity recognition
dependency parsing
processamento da linguagem natural
avaliação de recursos
língua portuguesa
análise morfosintática
reconhecimento de entidades mencionadas
análise de dependências
description  Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliação (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto é, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa.
publishDate 2020
dc.date.none.fl_str_mv 2020-12-31
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.21814/lm.12.2.331
https://doi.org/10.21814/lm.12.2.331
url https://doi.org/10.21814/lm.12.2.331
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://linguamatica.com/index.php/linguamatica/article/view/331
https://linguamatica.com/index.php/linguamatica/article/view/331/471
dc.rights.driver.fl_str_mv Direitos de Autor (c) 2020 Matilde Gonçalves, Luisa Coheur, Jorge Baptista, Ana Mineiro
http://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Direitos de Autor (c) 2020 Matilde Gonçalves, Luisa Coheur, Jorge Baptista, Ana Mineiro
http://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv Linguamática; Vol. 12 No. 2; 51-68
Linguamática; Vol. 12 Núm. 2; 51-68
Linguamática; v. 12 n. 2; 51-68
1647-0818
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133554057150464