Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://doi.org/10.21814/lm.10.2.286 |
Resumo: | A detecção (ou identificação) de paráfrases é a tarefa de determinar se duas ou mais sentenças de comprimento arbitrário possuem o mesmo significado. Os métodos para resolver esta tarefa com potenciais aplicações em sistemas de Processamento de Linguagem Natural. Este trabalho investiga a combinação de diferentes métodos de representação de sentenças em modelos de linguagem por espaços vetoriais e classificadores lineares para o problema de detecção de paráfrases para a língua portuguesa. Os resultados obtidos nesse trabalho estão aquém daqueles obtidos para a tarefa relacionada de detecção de implicação textual na avaliação ASSIN para a língua portuguesa, porém nesse trabalho investigamos a aplicação das representações vetoriais de sentenças para a detecção de paráfrases, outras características usualmente exploradas em sistemas desse tipo podem trivialmente ser incorporadas ao nosso método para melhorar a performance. |
id |
RCAP_ec895968a140ead7061a19246cd20995 |
---|---|
oai_identifier_str |
oai:linguamatica.com:article/286 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence EmbeddingsDetecting Paraphrases for Portuguese using Word and Sentence EmbeddingsDetecção de Paráfrases na Lı́ngua Portuguesa usando Sentence EmbeddingsParaphrase IdentificationSemantic Textual SimilaritySentence EmbeddingsDetecção de ParáfrasesSimilaridade Semântica TextualSentence EmbeddingsA detecção (ou identificação) de paráfrases é a tarefa de determinar se duas ou mais sentenças de comprimento arbitrário possuem o mesmo significado. Os métodos para resolver esta tarefa com potenciais aplicações em sistemas de Processamento de Linguagem Natural. Este trabalho investiga a combinação de diferentes métodos de representação de sentenças em modelos de linguagem por espaços vetoriais e classificadores lineares para o problema de detecção de paráfrases para a língua portuguesa. Os resultados obtidos nesse trabalho estão aquém daqueles obtidos para a tarefa relacionada de detecção de implicação textual na avaliação ASSIN para a língua portuguesa, porém nesse trabalho investigamos a aplicação das representações vetoriais de sentenças para a detecção de paráfrases, outras características usualmente exploradas em sistemas desse tipo podem trivialmente ser incorporadas ao nosso método para melhorar a performance.Paraphrase detection/identification is the task of determining whether two or more sentences of arbitrary length possess the same meaning. Methods to solve this task have many potential applications in Natural Language Processing systems. This work investigates the combination of different methods of sentence representation in a vector space model of language and linear classifiers to the problem of paraphrase identification for the Portuguese language. The results obtained in this work are inferior to those obtained for the related task of recognizing textual entailment in the ASSIN evaluation for the Portuguese language, but we point out that in this work we investigate the application of sentence embeddings to the problem of paraphrase detection, as such other features usually explored in systems for this task may be trivially incorporated into our method to improve performance.A detecção (ou identificação) de paráfrases é a tarefa de determinar se duas ou mais sentenças de comprimento arbitrário possuem o mesmo significado. Os métodos para resolver esta tarefa com potenciais aplicações em sistemas de Processamento de Linguagem Natural. Este trabalho investiga a combinação de diferentes métodos de representação de sentenças em modelos de linguagem por espaços vetoriais e classificadores lineares para o problema de detecção de paráfrases para a língua portuguesa. Os resultados obtidos nesse trabalho estão aquém daqueles obtidos para a tarefa relacionada de detecção de implicação textual na avaliação ASSIN para a língua portuguesa, porém nesse trabalho investigamos a aplicação das representações vetoriais de sentenças para a detecção de paráfrases, outras características usualmente exploradas em sistemas desse tipo podem trivialmente ser incorporadas ao nosso método para melhorar a performance.Universidade do Minho e Universidade de Vigo2019-01-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.10.2.286https://doi.org/10.21814/lm.10.2.286Linguamática; Vol. 10 No. 2; 31-44Linguamática; Vol. 10 Núm. 2; 31-44Linguamática; v. 10 n. 2; 31-441647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/286https://linguamatica.com/index.php/linguamatica/article/view/286/445Direitos de Autor (c) 2019 Marlo Souzahttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessSouza, MarloSanches, Leandro Manuel Pereira2023-09-08T13:46:40Zoai:linguamatica.com:article/286Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:39.157558Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings Detecting Paraphrases for Portuguese using Word and Sentence Embeddings Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings |
title |
Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings |
spellingShingle |
Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings Souza, Marlo Paraphrase Identification Semantic Textual Similarity Sentence Embeddings Detecção de Paráfrases Similaridade Semântica Textual Sentence Embeddings |
title_short |
Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings |
title_full |
Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings |
title_fullStr |
Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings |
title_full_unstemmed |
Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings |
title_sort |
Detecção de Paráfrases na Lı́ngua Portuguesa usando Sentence Embeddings |
author |
Souza, Marlo |
author_facet |
Souza, Marlo Sanches, Leandro Manuel Pereira |
author_role |
author |
author2 |
Sanches, Leandro Manuel Pereira |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Souza, Marlo Sanches, Leandro Manuel Pereira |
dc.subject.por.fl_str_mv |
Paraphrase Identification Semantic Textual Similarity Sentence Embeddings Detecção de Paráfrases Similaridade Semântica Textual Sentence Embeddings |
topic |
Paraphrase Identification Semantic Textual Similarity Sentence Embeddings Detecção de Paráfrases Similaridade Semântica Textual Sentence Embeddings |
description |
A detecção (ou identificação) de paráfrases é a tarefa de determinar se duas ou mais sentenças de comprimento arbitrário possuem o mesmo significado. Os métodos para resolver esta tarefa com potenciais aplicações em sistemas de Processamento de Linguagem Natural. Este trabalho investiga a combinação de diferentes métodos de representação de sentenças em modelos de linguagem por espaços vetoriais e classificadores lineares para o problema de detecção de paráfrases para a língua portuguesa. Os resultados obtidos nesse trabalho estão aquém daqueles obtidos para a tarefa relacionada de detecção de implicação textual na avaliação ASSIN para a língua portuguesa, porém nesse trabalho investigamos a aplicação das representações vetoriais de sentenças para a detecção de paráfrases, outras características usualmente exploradas em sistemas desse tipo podem trivialmente ser incorporadas ao nosso método para melhorar a performance. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-01-24 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://doi.org/10.21814/lm.10.2.286 https://doi.org/10.21814/lm.10.2.286 |
url |
https://doi.org/10.21814/lm.10.2.286 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/286 https://linguamatica.com/index.php/linguamatica/article/view/286/445 |
dc.rights.driver.fl_str_mv |
Direitos de Autor (c) 2019 Marlo Souza http://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Direitos de Autor (c) 2019 Marlo Souza http://creativecommons.org/licenses/by/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
dc.source.none.fl_str_mv |
Linguamática; Vol. 10 No. 2; 31-44 Linguamática; Vol. 10 Núm. 2; 31-44 Linguamática; v. 10 n. 2; 31-44 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133554014158848 |