Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRJ |
Texto Completo: | http://hdl.handle.net/11422/14055 |
Resumo: | The heuristic retrieval on external plagiarism identification task is intended to return a list of the documents most likely to have been plagiarized, based on a similarity metric, reducing the workload of the following and highly costly steps. DUARTE (2017)’s work formalized a sequence of steps for performing heuristic retrieval with Locality Sensitive Hash (LSH) methods and demonstrated that due to their ability to preserve similarity, LSH methods are viable options for heuristic retrieval. This work proposed two strategies based on DUARTE (2017)’s sequence of steps, called document parallelism (PnD) and permutation parallelism (PnP), that were implemented in Apache Spark distributed computing system, to support the task of identifying plagiarism in large document collections. The experiments demonstrated that the PnD and PnP strategies were able to reduce, according computational capacity increases, the time of the activities of representing, searching and retrieving documents; as well as achieving a high level of effectiveness for returning effectively plagiarized documents. |
id |
UFRJ_d71d37d8557e1d0ecdf13059f8654460 |
---|---|
oai_identifier_str |
oai:pantheon.ufrj.br:11422/14055 |
network_acronym_str |
UFRJ |
network_name_str |
Repositório Institucional da UFRJ |
repository_id_str |
|
spelling |
Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hashParallelism and distribution in external plagiarism’s heuristic retrieval with locality sensitive hashLocality Sensitive Hash (LSH)Recuperação heurísticaIdentificação de plágioParalelismo e distribuiçãoSparkCNPQ::ENGENHARIASThe heuristic retrieval on external plagiarism identification task is intended to return a list of the documents most likely to have been plagiarized, based on a similarity metric, reducing the workload of the following and highly costly steps. DUARTE (2017)’s work formalized a sequence of steps for performing heuristic retrieval with Locality Sensitive Hash (LSH) methods and demonstrated that due to their ability to preserve similarity, LSH methods are viable options for heuristic retrieval. This work proposed two strategies based on DUARTE (2017)’s sequence of steps, called document parallelism (PnD) and permutation parallelism (PnP), that were implemented in Apache Spark distributed computing system, to support the task of identifying plagiarism in large document collections. The experiments demonstrated that the PnD and PnP strategies were able to reduce, according computational capacity increases, the time of the activities of representing, searching and retrieving documents; as well as achieving a high level of effectiveness for returning effectively plagiarized documents.A recuperação heurística na tarefa de identificação de plágio externo tem o objetivo de retornar uma lista com os documentos mais prováveis de terem sido plagiados, baseado em uma métrica de similaridade, reduzindo a carga de trabalho das etapas seguintes, caracterizadas por serem altamente custosas. O trabalho de DUARTE (2017) formalizou uma sequência de passos para realizar recuperação heurística com métodos de Locality Sensitive Hash (LSH) e demonstrou que, devido a capacidade de preservação da similaridade, os métodos LSH são opções viáveis para a recuperação heurística. Este trabalho propôs duas estratégias, denominadas de paralelismo nos documentos (PnD) e paralelismo na permutação (PnP), baseadas na sequência de passos de DUARTE (2017), que foram implementadas no sistema de computação distribuída Apache Spark, para apoiar a tarefa de identificação de plágio em grandes coleções de documentos. Os experimentos demonstraram que as estratégias PnD e PnP foram capazes de reduzir, em função do aumento da capacidade computacional, o tempo das atividades de representar, buscar e recuperar documentos; bem como permitem atingir um alto nível de eficácia para retornar os documentos efetivamente plagiados.Universidade Federal do Rio de JaneiroBrasilInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de EngenhariaPrograma de Pós-Graduação em Engenharia de Sistemas e ComputaçãoUFRJXexéo, Geraldo Bonorinohttp://lattes.cnpq.br/4783565791787812http://lattes.cnpq.br/0845128616636149Lima, Alexandre de Assis BentoOliveira, Daniel Cardoso Moraes deViana, Joaquim Afonso Ferreira2021-04-05T02:33:31Z2023-12-21T03:07:33Z2019-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/11422/14055porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJ2023-12-21T03:07:33Zoai:pantheon.ufrj.br:11422/14055Repositório InstitucionalPUBhttp://www.pantheon.ufrj.br/oai/requestpantheon@sibi.ufrj.bropendoar:2023-12-21T03:07:33Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false |
dc.title.none.fl_str_mv |
Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash Parallelism and distribution in external plagiarism’s heuristic retrieval with locality sensitive hash |
title |
Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash |
spellingShingle |
Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash Viana, Joaquim Afonso Ferreira Locality Sensitive Hash (LSH) Recuperação heurística Identificação de plágio Paralelismo e distribuição Spark CNPQ::ENGENHARIAS |
title_short |
Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash |
title_full |
Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash |
title_fullStr |
Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash |
title_full_unstemmed |
Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash |
title_sort |
Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash |
author |
Viana, Joaquim Afonso Ferreira |
author_facet |
Viana, Joaquim Afonso Ferreira |
author_role |
author |
dc.contributor.none.fl_str_mv |
Xexéo, Geraldo Bonorino http://lattes.cnpq.br/4783565791787812 http://lattes.cnpq.br/0845128616636149 Lima, Alexandre de Assis Bento Oliveira, Daniel Cardoso Moraes de |
dc.contributor.author.fl_str_mv |
Viana, Joaquim Afonso Ferreira |
dc.subject.por.fl_str_mv |
Locality Sensitive Hash (LSH) Recuperação heurística Identificação de plágio Paralelismo e distribuição Spark CNPQ::ENGENHARIAS |
topic |
Locality Sensitive Hash (LSH) Recuperação heurística Identificação de plágio Paralelismo e distribuição Spark CNPQ::ENGENHARIAS |
description |
The heuristic retrieval on external plagiarism identification task is intended to return a list of the documents most likely to have been plagiarized, based on a similarity metric, reducing the workload of the following and highly costly steps. DUARTE (2017)’s work formalized a sequence of steps for performing heuristic retrieval with Locality Sensitive Hash (LSH) methods and demonstrated that due to their ability to preserve similarity, LSH methods are viable options for heuristic retrieval. This work proposed two strategies based on DUARTE (2017)’s sequence of steps, called document parallelism (PnD) and permutation parallelism (PnP), that were implemented in Apache Spark distributed computing system, to support the task of identifying plagiarism in large document collections. The experiments demonstrated that the PnD and PnP strategies were able to reduce, according computational capacity increases, the time of the activities of representing, searching and retrieving documents; as well as achieving a high level of effectiveness for returning effectively plagiarized documents. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-09 2021-04-05T02:33:31Z 2023-12-21T03:07:33Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11422/14055 |
url |
http://hdl.handle.net/11422/14055 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro Brasil Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia Programa de Pós-Graduação em Engenharia de Sistemas e Computação UFRJ |
publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro Brasil Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia Programa de Pós-Graduação em Engenharia de Sistemas e Computação UFRJ |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRJ instname:Universidade Federal do Rio de Janeiro (UFRJ) instacron:UFRJ |
instname_str |
Universidade Federal do Rio de Janeiro (UFRJ) |
instacron_str |
UFRJ |
institution |
UFRJ |
reponame_str |
Repositório Institucional da UFRJ |
collection |
Repositório Institucional da UFRJ |
repository.name.fl_str_mv |
Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ) |
repository.mail.fl_str_mv |
pantheon@sibi.ufrj.br |
_version_ |
1815456014271512576 |