Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo

Detalhes bibliográficos
Autor(a) principal: Arruda, Michel Dias de
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFRJ
Texto Completo: http://hdl.handle.net/11422/14053
Resumo: [PT] A Detecção de Plágio em Linguagem Natural (NLPD) visa identificar a evidência textual que um documento contém plágio, para gerar uma lista de documentos que são plagiados para posterior avaliação humana. A detecção de plagio externo (EPD) é uma tarefa da NLPD, a qual um conjunto de documentos está disponível para consulta por plágio. EPD é formada de algumas etapas, dentre elas a Busca Heurística (HR), que é a etapa de EPD que visa recuperar um conjunto de documentos candidatos a plágio de um grande corpus, reduzindo o carga de trabalho das etapas posteriores do EPD. A etapa de Busca Heurística é uma tarefa de Recuperação de Informação (IR) e contém duas subtarefas: a indexação e a busca. Foram propostos dois métodos de particionamento, das permutações e do vocabulário, com o objetivo de tornar mais rápida a execução das subtarefas de IR. Ambos utilizam Locality-Sensitive Hashing (LSH) e são baseados no conceito matemático conhecido como partição de um conjunto. O particionamento de qualquer conjunto pode gerar resto, e a partir disso foram propostas as estratégias de tratamento Remainder at End (RaE), Remainder at Cell (RaC) e Distributed at Cell (DaC). Nos dois métodos de particionamento, RaE, RaC e DaC foram aproximadamente 101% mais rápidos que o estado da arte da IR na subtarefa de busca. Além disso, ambos alcançaram melhores resultados na indexação de documentos, extração de consultas e tempo de recuperação quando comparados com o baseline padrão do LSH, o MinMax.
id UFRJ_53ca256c7bde1787f09378c1b0fd2078
oai_identifier_str oai:pantheon.ufrj.br:11422/14053
network_acronym_str UFRJ
network_name_str Repositório Institucional da UFRJ
repository_id_str
spelling Arruda, Michel Dias dehttp://lattes.cnpq.br/4783565791787812http://lattes.cnpq.br/8628672465057972Silva, Eduardo Bezerra daDuarte, Fellipe RibeiroSilva, Geraldo Zimbrão daXexéo, Geraldo Bonorino2021-04-05T02:24:54Z2023-11-30T03:04:11Z2019-09http://hdl.handle.net/11422/14053[PT] A Detecção de Plágio em Linguagem Natural (NLPD) visa identificar a evidência textual que um documento contém plágio, para gerar uma lista de documentos que são plagiados para posterior avaliação humana. A detecção de plagio externo (EPD) é uma tarefa da NLPD, a qual um conjunto de documentos está disponível para consulta por plágio. EPD é formada de algumas etapas, dentre elas a Busca Heurística (HR), que é a etapa de EPD que visa recuperar um conjunto de documentos candidatos a plágio de um grande corpus, reduzindo o carga de trabalho das etapas posteriores do EPD. A etapa de Busca Heurística é uma tarefa de Recuperação de Informação (IR) e contém duas subtarefas: a indexação e a busca. Foram propostos dois métodos de particionamento, das permutações e do vocabulário, com o objetivo de tornar mais rápida a execução das subtarefas de IR. Ambos utilizam Locality-Sensitive Hashing (LSH) e são baseados no conceito matemático conhecido como partição de um conjunto. O particionamento de qualquer conjunto pode gerar resto, e a partir disso foram propostas as estratégias de tratamento Remainder at End (RaE), Remainder at Cell (RaC) e Distributed at Cell (DaC). Nos dois métodos de particionamento, RaE, RaC e DaC foram aproximadamente 101% mais rápidos que o estado da arte da IR na subtarefa de busca. Além disso, ambos alcançaram melhores resultados na indexação de documentos, extração de consultas e tempo de recuperação quando comparados com o baseline padrão do LSH, o MinMax.[EN] Natural Language Plagiarism Detection (NLPD) aims to seek textual evidence of plagiarism in documents, in order to generate a list of candidate documents of being plagiarized, to further be analysed by humans. External plagiarism detection (EPD) is a NLPD task in which a set of documents is available to be queried, seeking for plagiarism. DPE is comprised of a few steps, one of them being the Heuristic Search (HR), which is the EPD stage that retrieves a set of plagiarism candidate documents from a large corpus, reducing the workload of the later stages of the EPD. The HR stage is an Information Retrieval (IR) task, and comprises two subtasks, namely, Indexing and Source Retrieval. In order to speed up the execution of IR subtasks, two partitioning methods were proposed, the permutations and vocabulary partitioning. Both use Locality-Sensitive Hashing (LSH) and are based on the mathematical concept known as partition of a set. Partitioning any set can generate remainders, and to address this issue, the Remainder at End (RaE), Remainder at Cell (RaC) and Distributed at Cell (DaC) treatment strategies were proposed. Both partitioning methods were approximately 101% faster than the IR state of art. Moreover, RaE, RaC and DaC achieved better results in document indexing, query extraction and retrieval time in comparison to a standard LSH baseline, the Minmax.Submitted by Paloma Arruda (palomaoliiveira75@gmail.com) on 2021-02-22T22:09:34Z No. of bitstreams: 1 MichelDiasDeArruda.pdf: 2442028 bytes, checksum: ef6c82cbae8ac99f635a5f37071fbd1a (MD5)Approved for entry into archive by Moreno Barros (moreno@ct.ufrj.br) on 2021-04-05T02:24:54Z (GMT) No. of bitstreams: 1 MichelDiasDeArruda.pdf: 2442028 bytes, checksum: ef6c82cbae8ac99f635a5f37071fbd1a (MD5)Made available in DSpace on 2021-04-05T02:24:54Z (GMT). No. of bitstreams: 1 MichelDiasDeArruda.pdf: 2442028 bytes, checksum: ef6c82cbae8ac99f635a5f37071fbd1a (MD5) Previous issue date: 2019-09porUniversidade Federal do Rio de JaneiroPrograma de Pós-Graduação em Engenharia de Sistemas e ComputaçãoUFRJBrasilInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de EngenhariaCNPQ::ENGENHARIASlshPartitionsLocality-sensitive hashingPlagiarism detectionAbordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externoPartitioning approaches using locality-sensitive hashing applied to heuristic retrieval in external plagiarism detectioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisabertoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJORIGINALMichelDiasDeArruda.pdfMichelDiasDeArruda.pdfapplication/pdf2442028http://pantheon.ufrj.br:80/bitstream/11422/14053/1/MichelDiasDeArruda.pdfef6c82cbae8ac99f635a5f37071fbd1aMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81853http://pantheon.ufrj.br:80/bitstream/11422/14053/2/license.txtdd32849f2bfb22da963c3aac6e26e255MD5211422/140532023-11-30 00:04:11.246oai:pantheon.ufrj.br:11422/14053TElDRU7Dh0EgTsODTy1FWENMVVNJVkEgREUgRElTVFJJQlVJw4fDg08KCkFvIGFzc2luYXIgZSBlbnRyZWdhciBlc3RhIGxpY2Vuw6dhLCB2b2PDqihzKSBvKHMpIGF1dG9yKGVzKSBvdSBwcm9wcmlldMOhcmlvKHMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBjb25jZWRlKG0pIGFvIFJlcG9zaXTDs3JpbyBQYW50aGVvbiBkYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gZGUgSmFuZWlybyAoVUZSSikgbyBkaXJlaXRvIG7Do28gLSBleGNsdXNpdm8gZGUgcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vKSBlbSB0b2RvIG8gbXVuZG8sIGVtIGZvcm1hdG8gZWxldHLDtG5pY28gZSBlbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8sIG1hcyBuw6NvIGxpbWl0YWRvIGEgw6F1ZGlvIGUvb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIGEgVUZSSiBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhZHV6aXIgYSBhcHJlc2VudGHDp8OjbyBkZSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gY29tIGEgZmluYWxpZGFkZSBkZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogdGFtYsOpbSBjb25jb3JkYSBxdWUgYSBVRlJKIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXNzYSBzdWJtaXNzw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8OjbyBkaWdpdGFsLgoKRGVjbGFyYSBxdWUgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgc2V1IHRyYWJhbGhvIG9yaWdpbmFsLCBlIHF1ZSB2b2PDqiB0ZW0gbyBkaXJlaXRvIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIGEgc3VhIGFwcmVzZW50YcOnw6NvLCBjb20gbyBtZWxob3IgZGUgc2V1cyBjb25oZWNpbWVudG9zLCBuw6NvIGluZnJpbmdpIGRpcmVpdG9zIGF1dG9yYWlzIGRlIHRlcmNlaXJvcy4KClNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCB2b2PDqiBuw6NvIHRlbSBkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBlIGNvbmNlZGUgYSBVRlJKIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRhIHN1Ym1pc3PDo28uCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIHF1ZSBmb2ksIG91IHRlbSBzaWRvIHBhdHJvY2luYWRvIG91IGFwb2lhZG8gcG9yIHVtYSBhZ8OqbmNpYSBvdSBvdXRybyhzKSBvcmdhbmlzbW8ocykgcXVlIG7Do28gYSBVRlJKLCB2b2PDqiBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWxxdWVyIGRpcmVpdG8gZGUgUkVWSVPDg08gb3UgZGUgb3V0cmFzIG9icmlnYcOnw7VlcyByZXF1ZXJpZGFzIHBvciBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUkogaXLDoSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8ocykgc2V1KHMpIG5vbWUocykgY29tbyBhdXRvcihlcykgb3UgcHJvcHJpZXTDoXJpbyhzKSBkYSBzdWJtaXNzw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZGFzIHBlcm1pdGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EsIG5vIGF0byBkZSBzdWJtaXNzw6NvLgo=Repositório de PublicaçõesPUBhttp://www.pantheon.ufrj.br/oai/requestopendoar:2023-11-30T03:04:11Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false
dc.title.pt_BR.fl_str_mv Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo
dc.title.alternative.pt_BR.fl_str_mv Partitioning approaches using locality-sensitive hashing applied to heuristic retrieval in external plagiarism detection
title Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo
spellingShingle Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo
Arruda, Michel Dias de
CNPQ::ENGENHARIAS
lsh
Partitions
Locality-sensitive hashing
Plagiarism detection
title_short Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo
title_full Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo
title_fullStr Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo
title_full_unstemmed Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo
title_sort Abordagens de particionamento utilizando locality-sensitive hashing aplicada a busca heurística na detecção de plágio externo
author Arruda, Michel Dias de
author_facet Arruda, Michel Dias de
author_role author
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/4783565791787812
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/8628672465057972
dc.contributor.author.fl_str_mv Arruda, Michel Dias de
dc.contributor.referee1.fl_str_mv Silva, Eduardo Bezerra da
dc.contributor.referee2.fl_str_mv Duarte, Fellipe Ribeiro
dc.contributor.referee3.fl_str_mv Silva, Geraldo Zimbrão da
dc.contributor.advisor1.fl_str_mv Xexéo, Geraldo Bonorino
contributor_str_mv Silva, Eduardo Bezerra da
Duarte, Fellipe Ribeiro
Silva, Geraldo Zimbrão da
Xexéo, Geraldo Bonorino
dc.subject.cnpq.fl_str_mv CNPQ::ENGENHARIAS
topic CNPQ::ENGENHARIAS
lsh
Partitions
Locality-sensitive hashing
Plagiarism detection
dc.subject.por.fl_str_mv lsh
Partitions
Locality-sensitive hashing
Plagiarism detection
description [PT] A Detecção de Plágio em Linguagem Natural (NLPD) visa identificar a evidência textual que um documento contém plágio, para gerar uma lista de documentos que são plagiados para posterior avaliação humana. A detecção de plagio externo (EPD) é uma tarefa da NLPD, a qual um conjunto de documentos está disponível para consulta por plágio. EPD é formada de algumas etapas, dentre elas a Busca Heurística (HR), que é a etapa de EPD que visa recuperar um conjunto de documentos candidatos a plágio de um grande corpus, reduzindo o carga de trabalho das etapas posteriores do EPD. A etapa de Busca Heurística é uma tarefa de Recuperação de Informação (IR) e contém duas subtarefas: a indexação e a busca. Foram propostos dois métodos de particionamento, das permutações e do vocabulário, com o objetivo de tornar mais rápida a execução das subtarefas de IR. Ambos utilizam Locality-Sensitive Hashing (LSH) e são baseados no conceito matemático conhecido como partição de um conjunto. O particionamento de qualquer conjunto pode gerar resto, e a partir disso foram propostas as estratégias de tratamento Remainder at End (RaE), Remainder at Cell (RaC) e Distributed at Cell (DaC). Nos dois métodos de particionamento, RaE, RaC e DaC foram aproximadamente 101% mais rápidos que o estado da arte da IR na subtarefa de busca. Além disso, ambos alcançaram melhores resultados na indexação de documentos, extração de consultas e tempo de recuperação quando comparados com o baseline padrão do LSH, o MinMax.
publishDate 2019
dc.date.issued.fl_str_mv 2019-09
dc.date.accessioned.fl_str_mv 2021-04-05T02:24:54Z
dc.date.available.fl_str_mv 2023-11-30T03:04:11Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11422/14053
url http://hdl.handle.net/11422/14053
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Engenharia de Sistemas e Computação
dc.publisher.initials.fl_str_mv UFRJ
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRJ
instname:Universidade Federal do Rio de Janeiro (UFRJ)
instacron:UFRJ
instname_str Universidade Federal do Rio de Janeiro (UFRJ)
instacron_str UFRJ
institution UFRJ
reponame_str Repositório Institucional da UFRJ
collection Repositório Institucional da UFRJ
bitstream.url.fl_str_mv http://pantheon.ufrj.br:80/bitstream/11422/14053/1/MichelDiasDeArruda.pdf
http://pantheon.ufrj.br:80/bitstream/11422/14053/2/license.txt
bitstream.checksum.fl_str_mv ef6c82cbae8ac99f635a5f37071fbd1a
dd32849f2bfb22da963c3aac6e26e255
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)
repository.mail.fl_str_mv
_version_ 1784097196364267520