Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings

Detalhes bibliográficos
Autor(a) principal: Souza, Marlo
Data de Publicação: 2019
Outros Autores: Sanches, Leandro Manuel Pereira
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://doi.org/10.21814/lm.10.2.286
Resumo: A detecção (ou identificação) de paráfrases é a tarefa de determinar se duas ou mais sentenças de comprimento arbitrário possuem o mesmo significado. Os métodos para resolver esta tarefa com potenciais aplicações em sistemas de Processamento de Linguagem Natural. Este trabalho investiga a combinação de diferentes métodos de representação de sentenças em modelos de linguagem por espaços vetoriais e classificadores lineares para o problema de detecção de paráfrases para a língua portuguesa. Os resultados obtidos nesse trabalho estão aquém daqueles obtidos para a tarefa relacionada de detecção de implicação textual na avaliação ASSIN para a língua portuguesa, porém nesse trabalho investigamos a aplicação das representações vetoriais de sentenças para a detecção de paráfrases, outras características usualmente exploradas em sistemas desse tipo podem trivialmente ser incorporadas ao nosso método para melhorar a performance.
id RCAP_ec895968a140ead7061a19246cd20995
oai_identifier_str oai:linguamatica.com:article/286
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence EmbeddingsDetecting Paraphrases for Portuguese using Word and Sentence EmbeddingsDetecção de Paráfrases na Lı́ngua Portuguesa usando Sentence EmbeddingsParaphrase IdentificationSemantic Textual SimilaritySentence EmbeddingsDetecção de ParáfrasesSimilaridade Semântica TextualSentence EmbeddingsA detecção (ou identificação) de paráfrases é a tarefa de determinar se duas ou mais sentenças de comprimento arbitrário possuem o mesmo significado. Os métodos para resolver esta tarefa com potenciais aplicações em sistemas de Processamento de Linguagem Natural. Este trabalho investiga a combinação de diferentes métodos de representação de sentenças em modelos de linguagem por espaços vetoriais e classificadores lineares para o problema de detecção de paráfrases para a língua portuguesa. Os resultados obtidos nesse trabalho estão aquém daqueles obtidos para a tarefa relacionada de detecção de implicação textual na avaliação ASSIN para a língua portuguesa, porém nesse trabalho investigamos a aplicação das representações vetoriais de sentenças para a detecção de paráfrases, outras características usualmente exploradas em sistemas desse tipo podem trivialmente ser incorporadas ao nosso método para melhorar a performance.Paraphrase detection/identification is the task of determining whether two or more sentences of arbitrary length possess the same meaning. Methods to solve this task have many potential applications in Natural Language Processing systems. This work investigates the combination of different methods of sentence representation in a vector space model of language and linear classifiers to the problem of paraphrase identification for the Portuguese language. The results obtained in this work are inferior to those obtained for the related task of recognizing textual entailment in the ASSIN evaluation for the Portuguese language, but we point out that in this work we investigate the application of sentence embeddings to the problem of paraphrase detection, as such other features usually explored in systems for this task may be trivially incorporated into our method to improve performance.A detecção (ou identificação) de paráfrases é a tarefa de determinar se duas ou mais sentenças de comprimento arbitrário possuem o mesmo significado. Os métodos para resolver esta tarefa com potenciais aplicações em sistemas de Processamento de Linguagem Natural. Este trabalho investiga a combinação de diferentes métodos de representação de sentenças em modelos de linguagem por espaços vetoriais e classificadores lineares para o problema de detecção de paráfrases para a língua portuguesa. Os resultados obtidos nesse trabalho estão aquém daqueles obtidos para a tarefa relacionada de detecção de implicação textual na avaliação ASSIN para a língua portuguesa, porém nesse trabalho investigamos a aplicação das representações vetoriais de sentenças para a detecção de paráfrases, outras características usualmente exploradas em sistemas desse tipo podem trivialmente ser incorporadas ao nosso método para melhorar a performance.Universidade do Minho e Universidade de Vigo2019-01-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.10.2.286https://doi.org/10.21814/lm.10.2.286Linguamática; Vol. 10 No. 2; 31-44Linguamática; Vol. 10 Núm. 2; 31-44Linguamática; v. 10 n. 2; 31-441647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/286https://linguamatica.com/index.php/linguamatica/article/view/286/445Direitos de Autor (c) 2019 Marlo Souzahttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessSouza, MarloSanches, Leandro Manuel Pereira2023-09-08T13:46:40Zoai:linguamatica.com:article/286Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:39.157558Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings
Detecting Paraphrases for Portuguese using Word and Sentence Embeddings
Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings
title Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings
spellingShingle Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings
Souza, Marlo
Paraphrase Identification
Semantic Textual Similarity
Sentence Embeddings
Detecção de Paráfrases
Similaridade Semântica Textual
Sentence Embeddings
title_short Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings
title_full Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings
title_fullStr Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings
title_full_unstemmed Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings
title_sort Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings
author Souza, Marlo
author_facet Souza, Marlo
Sanches, Leandro Manuel Pereira
author_role author
author2 Sanches, Leandro Manuel Pereira
author2_role author
dc.contributor.author.fl_str_mv Souza, Marlo
Sanches, Leandro Manuel Pereira
dc.subject.por.fl_str_mv Paraphrase Identification
Semantic Textual Similarity
Sentence Embeddings
Detecção de Paráfrases
Similaridade Semântica Textual
Sentence Embeddings
topic Paraphrase Identification
Semantic Textual Similarity
Sentence Embeddings
Detecção de Paráfrases
Similaridade Semântica Textual
Sentence Embeddings
description A detecção (ou identificação) de paráfrases é a tarefa de determinar se duas ou mais sentenças de comprimento arbitrário possuem o mesmo significado. Os métodos para resolver esta tarefa com potenciais aplicações em sistemas de Processamento de Linguagem Natural. Este trabalho investiga a combinação de diferentes métodos de representação de sentenças em modelos de linguagem por espaços vetoriais e classificadores lineares para o problema de detecção de paráfrases para a língua portuguesa. Os resultados obtidos nesse trabalho estão aquém daqueles obtidos para a tarefa relacionada de detecção de implicação textual na avaliação ASSIN para a língua portuguesa, porém nesse trabalho investigamos a aplicação das representações vetoriais de sentenças para a detecção de paráfrases, outras características usualmente exploradas em sistemas desse tipo podem trivialmente ser incorporadas ao nosso método para melhorar a performance.
publishDate 2019
dc.date.none.fl_str_mv 2019-01-24
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.21814/lm.10.2.286
https://doi.org/10.21814/lm.10.2.286
url https://doi.org/10.21814/lm.10.2.286
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://linguamatica.com/index.php/linguamatica/article/view/286
https://linguamatica.com/index.php/linguamatica/article/view/286/445
dc.rights.driver.fl_str_mv Direitos de Autor (c) 2019 Marlo Souza
http://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Direitos de Autor (c) 2019 Marlo Souza
http://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv Linguamática; Vol. 10 No. 2; 31-44
Linguamática; Vol. 10 Núm. 2; 31-44
Linguamática; v. 10 n. 2; 31-44
1647-0818
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133554014158848