Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash

Detalhes bibliográficos
Autor(a) principal: Viana, Joaquim Afonso Ferreira
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFRJ
Texto Completo: http://hdl.handle.net/11422/14055
Resumo: The heuristic retrieval on external plagiarism identification task is intended to return a list of the documents most likely to have been plagiarized, based on a similarity metric, reducing the workload of the following and highly costly steps. DUARTE (2017)’s work formalized a sequence of steps for performing heuristic retrieval with Locality Sensitive Hash (LSH) methods and demonstrated that due to their ability to preserve similarity, LSH methods are viable options for heuristic retrieval. This work proposed two strategies based on DUARTE (2017)’s sequence of steps, called document parallelism (PnD) and permutation parallelism (PnP), that were implemented in Apache Spark distributed computing system, to support the task of identifying plagiarism in large document collections. The experiments demonstrated that the PnD and PnP strategies were able to reduce, according computational capacity increases, the time of the activities of representing, searching and retrieving documents; as well as achieving a high level of effectiveness for returning effectively plagiarized documents.
id UFRJ_d71d37d8557e1d0ecdf13059f8654460
oai_identifier_str oai:pantheon.ufrj.br:11422/14055
network_acronym_str UFRJ
network_name_str Repositório Institucional da UFRJ
repository_id_str
spelling Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hashParallelism and distribution in external plagiarism’s heuristic retrieval with locality sensitive hashLocality Sensitive Hash (LSH)Recuperação heurísticaIdentificação de plágioParalelismo e distribuiçãoSparkCNPQ::ENGENHARIASThe heuristic retrieval on external plagiarism identification task is intended to return a list of the documents most likely to have been plagiarized, based on a similarity metric, reducing the workload of the following and highly costly steps. DUARTE (2017)’s work formalized a sequence of steps for performing heuristic retrieval with Locality Sensitive Hash (LSH) methods and demonstrated that due to their ability to preserve similarity, LSH methods are viable options for heuristic retrieval. This work proposed two strategies based on DUARTE (2017)’s sequence of steps, called document parallelism (PnD) and permutation parallelism (PnP), that were implemented in Apache Spark distributed computing system, to support the task of identifying plagiarism in large document collections. The experiments demonstrated that the PnD and PnP strategies were able to reduce, according computational capacity increases, the time of the activities of representing, searching and retrieving documents; as well as achieving a high level of effectiveness for returning effectively plagiarized documents.A recuperação heurística na tarefa de identificação de plágio externo tem o objetivo de retornar uma lista com os documentos mais prováveis de terem sido plagiados, baseado em uma métrica de similaridade, reduzindo a carga de trabalho das etapas seguintes, caracterizadas por serem altamente custosas. O trabalho de DUARTE (2017) formalizou uma sequência de passos para realizar recuperação heurística com métodos de Locality Sensitive Hash (LSH) e demonstrou que, devido a capacidade de preservação da similaridade, os métodos LSH são opções viáveis para a recuperação heurística. Este trabalho propôs duas estratégias, denominadas de paralelismo nos documentos (PnD) e paralelismo na permutação (PnP), baseadas na sequência de passos de DUARTE (2017), que foram implementadas no sistema de computação distribuída Apache Spark, para apoiar a tarefa de identificação de plágio em grandes coleções de documentos. Os experimentos demonstraram que as estratégias PnD e PnP foram capazes de reduzir, em função do aumento da capacidade computacional, o tempo das atividades de representar, buscar e recuperar documentos; bem como permitem atingir um alto nível de eficácia para retornar os documentos efetivamente plagiados.Universidade Federal do Rio de JaneiroBrasilInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de EngenhariaPrograma de Pós-Graduação em Engenharia de Sistemas e ComputaçãoUFRJXexéo, Geraldo Bonorinohttp://lattes.cnpq.br/4783565791787812http://lattes.cnpq.br/0845128616636149Lima, Alexandre de Assis BentoOliveira, Daniel Cardoso Moraes deViana, Joaquim Afonso Ferreira2021-04-05T02:33:31Z2023-12-21T03:07:33Z2019-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/11422/14055porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJ2023-12-21T03:07:33Zoai:pantheon.ufrj.br:11422/14055Repositório InstitucionalPUBhttp://www.pantheon.ufrj.br/oai/requestpantheon@sibi.ufrj.bropendoar:2023-12-21T03:07:33Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false
dc.title.none.fl_str_mv Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash
Parallelism and distribution in external plagiarism’s heuristic retrieval with locality sensitive hash
title Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash
spellingShingle Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash
Viana, Joaquim Afonso Ferreira
Locality Sensitive Hash (LSH)
Recuperação heurística
Identificação de plágio
Paralelismo e distribuição
Spark
CNPQ::ENGENHARIAS
title_short Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash
title_full Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash
title_fullStr Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash
title_full_unstemmed Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash
title_sort Paralelismo e distribuição na recuperação heurística do plágio externo com locality sensitive hash
author Viana, Joaquim Afonso Ferreira
author_facet Viana, Joaquim Afonso Ferreira
author_role author
dc.contributor.none.fl_str_mv Xexéo, Geraldo Bonorino
http://lattes.cnpq.br/4783565791787812
http://lattes.cnpq.br/0845128616636149
Lima, Alexandre de Assis Bento
Oliveira, Daniel Cardoso Moraes de
dc.contributor.author.fl_str_mv Viana, Joaquim Afonso Ferreira
dc.subject.por.fl_str_mv Locality Sensitive Hash (LSH)
Recuperação heurística
Identificação de plágio
Paralelismo e distribuição
Spark
CNPQ::ENGENHARIAS
topic Locality Sensitive Hash (LSH)
Recuperação heurística
Identificação de plágio
Paralelismo e distribuição
Spark
CNPQ::ENGENHARIAS
description The heuristic retrieval on external plagiarism identification task is intended to return a list of the documents most likely to have been plagiarized, based on a similarity metric, reducing the workload of the following and highly costly steps. DUARTE (2017)’s work formalized a sequence of steps for performing heuristic retrieval with Locality Sensitive Hash (LSH) methods and demonstrated that due to their ability to preserve similarity, LSH methods are viable options for heuristic retrieval. This work proposed two strategies based on DUARTE (2017)’s sequence of steps, called document parallelism (PnD) and permutation parallelism (PnP), that were implemented in Apache Spark distributed computing system, to support the task of identifying plagiarism in large document collections. The experiments demonstrated that the PnD and PnP strategies were able to reduce, according computational capacity increases, the time of the activities of representing, searching and retrieving documents; as well as achieving a high level of effectiveness for returning effectively plagiarized documents.
publishDate 2019
dc.date.none.fl_str_mv 2019-09
2021-04-05T02:33:31Z
2023-12-21T03:07:33Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11422/14055
url http://hdl.handle.net/11422/14055
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
Brasil
Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
Programa de Pós-Graduação em Engenharia de Sistemas e Computação
UFRJ
publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
Brasil
Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
Programa de Pós-Graduação em Engenharia de Sistemas e Computação
UFRJ
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRJ
instname:Universidade Federal do Rio de Janeiro (UFRJ)
instacron:UFRJ
instname_str Universidade Federal do Rio de Janeiro (UFRJ)
instacron_str UFRJ
institution UFRJ
reponame_str Repositório Institucional da UFRJ
collection Repositório Institucional da UFRJ
repository.name.fl_str_mv Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)
repository.mail.fl_str_mv pantheon@sibi.ufrj.br
_version_ 1815456014271512576