Cross language plagiarism detection with contextualized word embeddings

Vaz, Delton de Andrade

Cross language plagiarism detection with contextualized word embeddings

Detalhes bibliográficos
Autor(a) principal:	Vaz, Delton de Andrade
Data de Publicação:	2021
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	eng
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/226141
Resumo:	Plágio é o uso do trabalho de outra pessoa sem o devido reconhecimento e citação, sendo um dos maiores problemas editoriais da academia e da ciência. Um estudo realizado em 2020 pela CopyLeaks mostrou que o plágio aumentou em 10% após a transição para aulas online durante a pandemia da COVID-19. Em alguns casos, os autores podem traduzir textos de outro idioma e incluir em seus próprios trabalhos. Este comportamento mais “sofisticado” é conhecido como plágio multilíngue. Neste trabalho, investigamos métodos que são usados para a detecção do plágio multilíngue. Embora algumas das abordagens desenvolvidas até agora utilizem word embeddings como parte de seu pipeline, poucas delas exploram contexualized word embeddings. Contexualized word embeddings consideram características fundamentais da linguagem, como a polissemia, levando em conta o contexto no qual uma palavra em particular ocorre. Modelos multilíngues pré-treinados têm demonstrado grande desempenho em tarefas multilíngues, tais como similaridade de sentenças e predição de próxima sentença. Assim, com resultados promissores para tarefas relacionadas à detecção de plágio, apresentamos uma nova proposta para a detecção de plágio multilíngue utilizando modelos multilíngues pré-treinados com embeddings contextuais. Experimentos realizados em diferentes conjuntos de dados, como o PAN-PC-12, mostram que a detecção de plágio multilíngue utilizando modelos multilíngues pré-treinados com embeddings contextuais supera supera em 9% e 11% os modelos de última geração em relação aos resultados de plagdet obtidos para os pares de idiomas inglês-espanhol e inglês-alemão.

Metadados do item

id	UFRGS-2_080fb53aa7f3ffee63b057e4d1bc72b7
oai_identifier_str	oai:www.lume.ufrgs.br:10183/226141
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Vaz, Delton de AndradeMoreira, Viviane Pereira2021-08-26T04:07:29Z2021http://hdl.handle.net/10183/226141001128573Plágio é o uso do trabalho de outra pessoa sem o devido reconhecimento e citação, sendo um dos maiores problemas editoriais da academia e da ciência. Um estudo realizado em 2020 pela CopyLeaks mostrou que o plágio aumentou em 10% após a transição para aulas online durante a pandemia da COVID-19. Em alguns casos, os autores podem traduzir textos de outro idioma e incluir em seus próprios trabalhos. Este comportamento mais “sofisticado” é conhecido como plágio multilíngue. Neste trabalho, investigamos métodos que são usados para a detecção do plágio multilíngue. Embora algumas das abordagens desenvolvidas até agora utilizem word embeddings como parte de seu pipeline, poucas delas exploram contexualized word embeddings. Contexualized word embeddings consideram características fundamentais da linguagem, como a polissemia, levando em conta o contexto no qual uma palavra em particular ocorre. Modelos multilíngues pré-treinados têm demonstrado grande desempenho em tarefas multilíngues, tais como similaridade de sentenças e predição de próxima sentença. Assim, com resultados promissores para tarefas relacionadas à detecção de plágio, apresentamos uma nova proposta para a detecção de plágio multilíngue utilizando modelos multilíngues pré-treinados com embeddings contextuais. Experimentos realizados em diferentes conjuntos de dados, como o PAN-PC-12, mostram que a detecção de plágio multilíngue utilizando modelos multilíngues pré-treinados com embeddings contextuais supera supera em 9% e 11% os modelos de última geração em relação aos resultados de plagdet obtidos para os pares de idiomas inglês-espanhol e inglês-alemão.Plagiarism is the use of someone else’s work without the proper acknowledgment and citation, being one of the most significant publishing issues in academia and science. A study conducted by CopyLeaks in 2020 showed that plagiarism increased by 10% after the transition to online classes during the COVID-19 pandemic. In some cases, authors may translate texts from another language and include them in their work. This more “sophisticated” behavior is known as cross-language plagiarism. In this work, we investigate methods that are used for cross-language plagiarism detection. Although some of the approaches developed until now use word embeddings as part of their pipelines, few explore contextualized word embeddings. Contextualized embeddings can help address fundamental characteristics of language such as polysemy and synonymy by taking into account the context in which a particular word occurs. Pre-trained multilingual models have shown outstanding performance in downstream natural language understanding tasks, such as sentence similarity and next sentence prediction. Motivated by these promising results in tasks related to plagiarism detection, we present a new proposal for cross-language plagiarism detection using pre-trained multilingual models with contextualized embeddings. Experiments performed on different datasets, such as PAN-PC-12, show that the proposed cross-language plagiarism detection using contextualized embeddings outperforms state-of-the-art models by 9% and 11% regarding plagdet results obtained for the English-Spanish and English-German language pairs.application/pdfengPlágioRecuperação de informação : multilíngueCross language plagiarism detectionBERTCross language information retrievalWord embeddingsCross language plagiarism detection with contextualized word embeddingsDetecção de plágio multilíngue usando word embeddings contextualizadas info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2021Ciência da Computação: Ênfase em Engenharia da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001128573.pdf.txt001128573.pdf.txtExtracted Texttext/plain98768http://www.lume.ufrgs.br/bitstream/10183/226141/2/001128573.pdf.txt8f63c7905dde087a049b2e3af838b0ecMD52ORIGINAL001128573.pdfTexto completo (inglês)application/pdf1267393http://www.lume.ufrgs.br/bitstream/10183/226141/1/001128573.pdf9a1dbef03c139bb7f3d9a02c65f66f15MD5110183/2261412021-09-19 04:28:39.300392oai:www.lume.ufrgs.br:10183/226141Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2021-09-19T07:28:39Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Cross language plagiarism detection with contextualized word embeddings
dc.title.alternative.pt.fl_str_mv	Detecção de plágio multilíngue usando word embeddings contextualizadas
title	Cross language plagiarism detection with contextualized word embeddings
spellingShingle	Cross language plagiarism detection with contextualized word embeddings Vaz, Delton de Andrade Plágio Recuperação de informação : multilíngue Cross language plagiarism detection BERT Cross language information retrieval Word embeddings
title_short	Cross language plagiarism detection with contextualized word embeddings
title_full	Cross language plagiarism detection with contextualized word embeddings
title_fullStr	Cross language plagiarism detection with contextualized word embeddings
title_full_unstemmed	Cross language plagiarism detection with contextualized word embeddings
title_sort	Cross language plagiarism detection with contextualized word embeddings
author	Vaz, Delton de Andrade
author_facet	Vaz, Delton de Andrade
author_role	author
dc.contributor.author.fl_str_mv	Vaz, Delton de Andrade
dc.contributor.advisor1.fl_str_mv	Moreira, Viviane Pereira
contributor_str_mv	Moreira, Viviane Pereira
dc.subject.por.fl_str_mv	Plágio Recuperação de informação : multilíngue
topic	Plágio Recuperação de informação : multilíngue Cross language plagiarism detection BERT Cross language information retrieval Word embeddings
dc.subject.eng.fl_str_mv	Cross language plagiarism detection BERT Cross language information retrieval Word embeddings
description	Plágio é o uso do trabalho de outra pessoa sem o devido reconhecimento e citação, sendo um dos maiores problemas editoriais da academia e da ciência. Um estudo realizado em 2020 pela CopyLeaks mostrou que o plágio aumentou em 10% após a transição para aulas online durante a pandemia da COVID-19. Em alguns casos, os autores podem traduzir textos de outro idioma e incluir em seus próprios trabalhos. Este comportamento mais “sofisticado” é conhecido como plágio multilíngue. Neste trabalho, investigamos métodos que são usados para a detecção do plágio multilíngue. Embora algumas das abordagens desenvolvidas até agora utilizem word embeddings como parte de seu pipeline, poucas delas exploram contexualized word embeddings. Contexualized word embeddings consideram características fundamentais da linguagem, como a polissemia, levando em conta o contexto no qual uma palavra em particular ocorre. Modelos multilíngues pré-treinados têm demonstrado grande desempenho em tarefas multilíngues, tais como similaridade de sentenças e predição de próxima sentença. Assim, com resultados promissores para tarefas relacionadas à detecção de plágio, apresentamos uma nova proposta para a detecção de plágio multilíngue utilizando modelos multilíngues pré-treinados com embeddings contextuais. Experimentos realizados em diferentes conjuntos de dados, como o PAN-PC-12, mostram que a detecção de plágio multilíngue utilizando modelos multilíngues pré-treinados com embeddings contextuais supera supera em 9% e 11% os modelos de última geração em relação aos resultados de plagdet obtidos para os pares de idiomas inglês-espanhol e inglês-alemão.
publishDate	2021
dc.date.accessioned.fl_str_mv	2021-08-26T04:07:29Z
dc.date.issued.fl_str_mv	2021
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/226141
dc.identifier.nrb.pt_BR.fl_str_mv	001128573
url	http://hdl.handle.net/10183/226141
identifier_str_mv	001128573
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/226141/2/001128573.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/226141/1/001128573.pdf
bitstream.checksum.fl_str_mv	8f63c7905dde087a049b2e3af838b0ec 9a1dbef03c139bb7f3d9a02c65f66f15
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_	1801224612327981056

Cross language plagiarism detection with contextualized word embeddings

Registros relacionados