Comparando embeddings contextuais no problema de busca de similaridade semântica em português

Andrade Junior, José estevam de

Comparando embeddings contextuais no problema de busca de similaridade semântica em português

Detalhes bibliográficos
Autor(a) principal:	Andrade Junior, José estevam de
Data de Publicação:	2021
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UFRN
Texto Completo:	https://repositorio.ufrn.br/handle/123456789/43620
Resumo:	Busca de similaridade semântica textual (STS, do inglês semantic textual similarity) é um problema de processamento de linguagem natural que tem por objetivo mensurar numericamente o quão similares dois pares de frases são semanticamente. Esse problema vem ganhando grande atenção tanto na indústria, por meio do desenvolvimento de diversos sistemas de recomendação textuais, quanto na academia, principalmente com a popularidade de tarefas compartilhadas como as propostas pelo International Workshop on Semantic Evaluation(SemEval). Apesar do SemEval ter contribuído para o aumento dos trabalhos nesta área, ainda vemos poucos estudos focados em STS para a língua portuguesa. Pensando nisso, os workshops ASSIN e ASSIN 2 criaram tarefas compartilhadas de busca de similaridade semântica em português, disponibilizando conjuntos de dados que foram usados para avaliar modelos durante os eventos. Mais recentemente, um modelo BERT pré-treinado em português com fine-tuning(ptBERTft) estabeleceu o estado-da-arte para estes conjuntos. Neste trabalho, comparamos o desempenho dos embeddings contextuais produzidos por modelos BERT e Sentence-BERT(SBERT) para os conjuntos de dados criados nos workshops ASSIN e ASSIN 2. Os modelos BERT foram pré-treinados no português com (ptBERTft) ou sem (ptBERT) fine-tuning para STS. Por sua vez, os modelos SBERT adotados foram pré-treinados em bases multi-língues (mSBERT), inicialmente sem fine-tuning. Os resultados desta comparação mostram que osembeddings produzidos pelos modelos multilíngues SBERT são competitivos, ultrapassando os resultados do ptBERT e também os resultados observados durante as tarefas compartilhadas do ASSIN e ASSIN 2. De fato, para este conjunto de dados o resultado do mSBERT ficou atrás apenas dos resultados obtidos pelo ptBERTft. Na segunda parte da nossa investigação, realizamos um fine-tuning dos modelos multilíngues SBERT para os problemas propostos. Os resultados desta fase variam em função do conjunto de dados considerado. Para o ASSIN 2, o fine-tuning torna os modelos multilíngues SBERT competitivos com o ptBERTft, requerendo porém menos recursos computacionais. Para o ASSIN, no entanto, o ganho de performance obtido pelo fine-tuning não foi suficiente para igualar a performance do modelo ptBERTft.

Metadados do item

id	UFRN_afef7003a4d343288fef3876bbc56da5
oai_identifier_str	oai:https://repositorio.ufrn.br:123456789/43620
network_acronym_str	UFRN
network_name_str	Repositório Institucional da UFRN
repository_id_str
spelling	Andrade Junior, José estevam deAbreu, Márjory Cristiany da CostaSilva, Jonathan CardosoBezerra, Leonardo Cesar Teonacio2021-04-29T19:18:20Z2021-10-06T11:51:35Z2021-04-29T19:18:20Z2021-10-06T11:51:35Z2021-04-2720170009356ANDRADE JUNIOR, José Estevam de. Comparando embeddings contextuais no problema de busca de similaridade semântica em português. 2021. 50f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2021.https://repositorio.ufrn.br/handle/123456789/43620Busca de similaridade semântica textual (STS, do inglês semantic textual similarity) é um problema de processamento de linguagem natural que tem por objetivo mensurar numericamente o quão similares dois pares de frases são semanticamente. Esse problema vem ganhando grande atenção tanto na indústria, por meio do desenvolvimento de diversos sistemas de recomendação textuais, quanto na academia, principalmente com a popularidade de tarefas compartilhadas como as propostas pelo International Workshop on Semantic Evaluation(SemEval). Apesar do SemEval ter contribuído para o aumento dos trabalhos nesta área, ainda vemos poucos estudos focados em STS para a língua portuguesa. Pensando nisso, os workshops ASSIN e ASSIN 2 criaram tarefas compartilhadas de busca de similaridade semântica em português, disponibilizando conjuntos de dados que foram usados para avaliar modelos durante os eventos. Mais recentemente, um modelo BERT pré-treinado em português com fine-tuning(ptBERTft) estabeleceu o estado-da-arte para estes conjuntos. Neste trabalho, comparamos o desempenho dos embeddings contextuais produzidos por modelos BERT e Sentence-BERT(SBERT) para os conjuntos de dados criados nos workshops ASSIN e ASSIN 2. Os modelos BERT foram pré-treinados no português com (ptBERTft) ou sem (ptBERT) fine-tuning para STS. Por sua vez, os modelos SBERT adotados foram pré-treinados em bases multi-língues (mSBERT), inicialmente sem fine-tuning. Os resultados desta comparação mostram que osembeddings produzidos pelos modelos multilíngues SBERT são competitivos, ultrapassando os resultados do ptBERT e também os resultados observados durante as tarefas compartilhadas do ASSIN e ASSIN 2. De fato, para este conjunto de dados o resultado do mSBERT ficou atrás apenas dos resultados obtidos pelo ptBERTft. Na segunda parte da nossa investigação, realizamos um fine-tuning dos modelos multilíngues SBERT para os problemas propostos. Os resultados desta fase variam em função do conjunto de dados considerado. Para o ASSIN 2, o fine-tuning torna os modelos multilíngues SBERT competitivos com o ptBERTft, requerendo porém menos recursos computacionais. Para o ASSIN, no entanto, o ganho de performance obtido pelo fine-tuning não foi suficiente para igualar a performance do modelo ptBERTft.Semantic textual similarity (STS) is a natural language processing problem that aims to measure how similar two pairs of sentences are semantically. This problem has been gaining great attention both in the industry, through the development of several textual recommendation systems, and in academia, mainly with the popularity of shared tasks such as those proposed by the International Workshop on Semantic Evaluation(SemEval). Although SemEval has contributed to the increase in works in this area, the literature still lacks studies focused on STS for the Portuguese language. To that end, the ASSIN and ASSIN 2 workshops created shared tasks for semantic similarity search in Portuguese,providing datasets that were used to evaluate models during the events. More recently,a model produced by a Portuguese pre-trained and fine-tuned BERT established the state-of-the-art for those datasets. This work compares the performance of the BERT and Sentence-BERT(SBERT) contextual embeddings on the datasets created in the workshops ASSIN and ASSIN 2. The BERT models were pre-trained in portuguese with (ptBERTft) and without (ptBERT) fine-tuning for STS. On the other hand, the SBERT models was pre-trained in a multilingual corpus(mSBERT), initially without fine-tuning. The results of this comparison showed that the embeddings produced by SBERT models were competitive, surpassing the results of ptBERT and also the results observed during the shared tasks ASSIN and ASSIN 2. In fact, the result of mSBERT was second only to the results obtained by ptBERTft. In the second part of our investigation, we fine-tuned the multilingual SBERT models for the proposed problems. The results of this step vary depending on the dataset. For ASSIN 2,the fine-tuning made the SBERT models competitive with ptBERTft, however requiring less computational resources. For ASSIN, by contrast, the performance gain obtained by fine-tuning was not enough to match the performance of ptBERTft.Universidade Federal do Rio Grande do NorteUFRNBrasilEngenharia de ComputaçãoAprendizado profundoProcessamento de linguagem naturalSimilaridade semântica textualWord embeddingsComparando embeddings contextuais no problema de busca de similaridade semântica em portuguêsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNinfo:eu-repo/semantics/openAccessORIGINALComparandoEmbeddingsContextuais_Andrade_2021.pdfapplication/pdf1220123https://repositorio.ufrn.br/bitstream/123456789/43620/1/ComparandoEmbeddingsContextuais_Andrade_2021.pdf46354660eae2d5e17dea8d9e09e8b7c5MD51LICENSElicense.txttext/plain714https://repositorio.ufrn.br/bitstream/123456789/43620/2/license.txt7278bab9c5c886812fa7d225dc807888MD52TEXTComparandoEmbeddingsContextuais_Andrade_2021.pdf.txtExtracted texttext/plain98810https://repositorio.ufrn.br/bitstream/123456789/43620/3/ComparandoEmbeddingsContextuais_Andrade_2021.pdf.txtc4db6ba7cedc8b18b2c46224ab726dfbMD53123456789/436202021-10-06 08:51:35.8oai:https://repositorio.ufrn.br:123456789/43620PGNlbnRlcj48c3Ryb25nPkZFREVSQUwgVU5JVkVSU0lUWSBPRiBSSU8gR1JBTkRFIERPIE5PUlRFPC9zdHJvbmc+PC9jZW50ZXI+CjxjZW50ZXI+PHN0cm9uZz5ESUdJVEFMIE1PTk9HUkFQSFMgTElCUkFSWTwvc3Ryb25nPjwvY2VudGVyPgoKPGNlbnRlcj5BdXRob3JpemF0aW9uIFRlcm0gZm9yIHRoZSBhdmFpbGFiaWxpdHkgb2YgTW9ub2dyYXBocyBmb3IgVW5kZXJncmFkdWF0ZSBhbmQgU3BlY2lhbGl6YXRpb24gaW4gdGhlIERpZ2l0YWwgTGlicmFyeSBvZiBNb25vZ3JhcGhzIChCRE0pPC9jZW50ZXI+CgpBcyB0aGUgY29weXJpZ2h0IG93bmVyIG9mIHRoZSBtb25vZ3JhcGgsIEkgYXV0aG9yaXplIHRoZSBGZWRlcmFsIFVuaXZlcnNpdHkgb2YgUmlvIEdyYW5kZSBkbyBOb3J0ZSAoVUZSTikgdG8gbWFrZSBhdmFpbGFibGUgdGhyb3VnaCB0aGUgRGlnaXRhbCBMaWJyYXJ5IG9mIE1vbm9ncmFwaHMgb2YgVUZSTiwgd2l0aG91dCByZWltYnVyc2VtZW50IG9mIGNvcHlyaWdodCwgYWNjb3JkaW5nIHRvIExhdyA5NjEwLzk4ICwgdGhlIGZ1bGwgdGV4dCBvZiB0aGUgd29yayBzdWJtaXR0ZWQgZm9yIHRoZSBwdXJwb3NlIG9mIHJlYWRpbmcsIHByaW50aW5nIGFuZCAvIG9yIGRvd25sb2FkaW5nLCBhcyBhIG1lYW5zIG9mIGRpc3NlbWluYXRpbmcgQnJhemlsaWFuIHNjaWVudGlmaWMgcHJvZHVjdGlvbiwgYXMgb2YgdGhlIGRhdGUgb2Ygc3VibWlzc2lvbi4KRepositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2021-10-06T11:51:35Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.pt_BR.fl_str_mv	Comparando embeddings contextuais no problema de busca de similaridade semântica em português
title	Comparando embeddings contextuais no problema de busca de similaridade semântica em português
spellingShingle	Comparando embeddings contextuais no problema de busca de similaridade semântica em português Andrade Junior, José estevam de Aprendizado profundo Processamento de linguagem natural Similaridade semântica textual Word embeddings
title_short	Comparando embeddings contextuais no problema de busca de similaridade semântica em português
title_full	Comparando embeddings contextuais no problema de busca de similaridade semântica em português
title_fullStr	Comparando embeddings contextuais no problema de busca de similaridade semântica em português
title_full_unstemmed	Comparando embeddings contextuais no problema de busca de similaridade semântica em português
title_sort	Comparando embeddings contextuais no problema de busca de similaridade semântica em português
author	Andrade Junior, José estevam de
author_facet	Andrade Junior, José estevam de
author_role	author
dc.contributor.referees1.none.fl_str_mv	Abreu, Márjory Cristiany da Costa
dc.contributor.referees2.none.fl_str_mv	Silva, Jonathan Cardoso
dc.contributor.author.fl_str_mv	Andrade Junior, José estevam de
dc.contributor.advisor1.fl_str_mv	Bezerra, Leonardo Cesar Teonacio
contributor_str_mv	Bezerra, Leonardo Cesar Teonacio
dc.subject.por.fl_str_mv	Aprendizado profundo Processamento de linguagem natural Similaridade semântica textual Word embeddings
topic	Aprendizado profundo Processamento de linguagem natural Similaridade semântica textual Word embeddings
description	Busca de similaridade semântica textual (STS, do inglês semantic textual similarity) é um problema de processamento de linguagem natural que tem por objetivo mensurar numericamente o quão similares dois pares de frases são semanticamente. Esse problema vem ganhando grande atenção tanto na indústria, por meio do desenvolvimento de diversos sistemas de recomendação textuais, quanto na academia, principalmente com a popularidade de tarefas compartilhadas como as propostas pelo International Workshop on Semantic Evaluation(SemEval). Apesar do SemEval ter contribuído para o aumento dos trabalhos nesta área, ainda vemos poucos estudos focados em STS para a língua portuguesa. Pensando nisso, os workshops ASSIN e ASSIN 2 criaram tarefas compartilhadas de busca de similaridade semântica em português, disponibilizando conjuntos de dados que foram usados para avaliar modelos durante os eventos. Mais recentemente, um modelo BERT pré-treinado em português com fine-tuning(ptBERTft) estabeleceu o estado-da-arte para estes conjuntos. Neste trabalho, comparamos o desempenho dos embeddings contextuais produzidos por modelos BERT e Sentence-BERT(SBERT) para os conjuntos de dados criados nos workshops ASSIN e ASSIN 2. Os modelos BERT foram pré-treinados no português com (ptBERTft) ou sem (ptBERT) fine-tuning para STS. Por sua vez, os modelos SBERT adotados foram pré-treinados em bases multi-língues (mSBERT), inicialmente sem fine-tuning. Os resultados desta comparação mostram que osembeddings produzidos pelos modelos multilíngues SBERT são competitivos, ultrapassando os resultados do ptBERT e também os resultados observados durante as tarefas compartilhadas do ASSIN e ASSIN 2. De fato, para este conjunto de dados o resultado do mSBERT ficou atrás apenas dos resultados obtidos pelo ptBERTft. Na segunda parte da nossa investigação, realizamos um fine-tuning dos modelos multilíngues SBERT para os problemas propostos. Os resultados desta fase variam em função do conjunto de dados considerado. Para o ASSIN 2, o fine-tuning torna os modelos multilíngues SBERT competitivos com o ptBERTft, requerendo porém menos recursos computacionais. Para o ASSIN, no entanto, o ganho de performance obtido pelo fine-tuning não foi suficiente para igualar a performance do modelo ptBERTft.
publishDate	2021
dc.date.accessioned.fl_str_mv	2021-04-29T19:18:20Z 2021-10-06T11:51:35Z
dc.date.available.fl_str_mv	2021-04-29T19:18:20Z 2021-10-06T11:51:35Z
dc.date.issued.fl_str_mv	2021-04-27
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.pt_BR.fl_str_mv	20170009356
dc.identifier.citation.fl_str_mv	ANDRADE JUNIOR, José Estevam de. Comparando embeddings contextuais no problema de busca de similaridade semântica em português. 2021. 50f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2021.
dc.identifier.uri.fl_str_mv	https://repositorio.ufrn.br/handle/123456789/43620
identifier_str_mv	20170009356 ANDRADE JUNIOR, José Estevam de. Comparando embeddings contextuais no problema de busca de similaridade semântica em português. 2021. 50f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2021.
url	https://repositorio.ufrn.br/handle/123456789/43620
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal do Rio Grande do Norte
dc.publisher.initials.fl_str_mv	UFRN
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Engenharia de Computação
publisher.none.fl_str_mv	Universidade Federal do Rio Grande do Norte
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN
instname_str	Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str	UFRN
institution	UFRN
reponame_str	Repositório Institucional da UFRN
collection	Repositório Institucional da UFRN
bitstream.url.fl_str_mv	https://repositorio.ufrn.br/bitstream/123456789/43620/1/ComparandoEmbeddingsContextuais_Andrade_2021.pdf https://repositorio.ufrn.br/bitstream/123456789/43620/2/license.txt https://repositorio.ufrn.br/bitstream/123456789/43620/3/ComparandoEmbeddingsContextuais_Andrade_2021.pdf.txt
bitstream.checksum.fl_str_mv	46354660eae2d5e17dea8d9e09e8b7c5 7278bab9c5c886812fa7d225dc807888 c4db6ba7cedc8b18b2c46224ab726dfb
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_	1802117600647315456

Comparando embeddings contextuais no problema de busca de similaridade semântica em português

Registros relacionados