Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos

Detalhes bibliográficos
Autor(a) principal: Pertile, Solange de Lurdes
Data de Publicação: 2015
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/122510
Resumo: A grande quantidade de artigos científicos disponíveis on-line faz com que seja mais fácil para estudantes e pesquisadores reutilizarem texto de outros autores, e torna mais difícil a verificação da originalidade de um determinado texto. Reutilizar texto sem creditar a fonte é considerado plágio. Uma série de estudos relatam a alta prevalência de plágio no meio acadêmico e científico. Como consequência, inúmeras instituições e pesquisadores têm se dedicado à elaboração de sistemas para automatizar o processo de verificação de plágio. A maioria dos trabalhos existentes baseia-se na análise da similaridade do conteúdo textual dos documentos para avaliar a existência de plágio. Mais recentemente, foram propostas métricas de similaridade que desconsideram o texto e analisam apenas as citações e/ou referências bibliográficas compartilhadas entre documentos. Entretanto, casos em que o autor não referencia a fonte original pode passar despercebido pelas métricas baseadas apenas na análise de referências/citações. Neste contexto, a solução proposta é baseada na hipótese de que a combinação de métricas de similaridade de conteúdo e de citações/referências pode melhorar a qualidade da detecção de plágio. Duas formas de combinação são propostas: (i) os escores produzidos pelas métricas de similaridade são utilizados para ranqueamento dos pares de documentos e (ii) os escores das métricas são utilizados para construir vetores de características que serão usados por algoritmos de Aprendizagem de Máquina para classificar os documentos. Os experimentos foram realizados com conjuntos de dados reais de artigos científicos. A avaliação experimental mostra que a hipótese foi confirmada quando a combinação das métricas de similaridade usando Aprendizagem de Máquina é comparada com a combinação simples. Ainda, ambas as combinações apresentaram ganhos quando comparadas com as métricas aplicadas de forma individual.
id URGS_c7de2f3ad0d963845b91281c4491e270
oai_identifier_str oai:www.lume.ufrgs.br:10183/122510
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Pertile, Solange de LurdesMoreira, Viviane Pereira2015-08-15T02:03:45Z2015http://hdl.handle.net/10183/122510000971628A grande quantidade de artigos científicos disponíveis on-line faz com que seja mais fácil para estudantes e pesquisadores reutilizarem texto de outros autores, e torna mais difícil a verificação da originalidade de um determinado texto. Reutilizar texto sem creditar a fonte é considerado plágio. Uma série de estudos relatam a alta prevalência de plágio no meio acadêmico e científico. Como consequência, inúmeras instituições e pesquisadores têm se dedicado à elaboração de sistemas para automatizar o processo de verificação de plágio. A maioria dos trabalhos existentes baseia-se na análise da similaridade do conteúdo textual dos documentos para avaliar a existência de plágio. Mais recentemente, foram propostas métricas de similaridade que desconsideram o texto e analisam apenas as citações e/ou referências bibliográficas compartilhadas entre documentos. Entretanto, casos em que o autor não referencia a fonte original pode passar despercebido pelas métricas baseadas apenas na análise de referências/citações. Neste contexto, a solução proposta é baseada na hipótese de que a combinação de métricas de similaridade de conteúdo e de citações/referências pode melhorar a qualidade da detecção de plágio. Duas formas de combinação são propostas: (i) os escores produzidos pelas métricas de similaridade são utilizados para ranqueamento dos pares de documentos e (ii) os escores das métricas são utilizados para construir vetores de características que serão usados por algoritmos de Aprendizagem de Máquina para classificar os documentos. Os experimentos foram realizados com conjuntos de dados reais de artigos científicos. A avaliação experimental mostra que a hipótese foi confirmada quando a combinação das métricas de similaridade usando Aprendizagem de Máquina é comparada com a combinação simples. Ainda, ambas as combinações apresentaram ganhos quando comparadas com as métricas aplicadas de forma individual.The large amount of scientific documents available online makes it easier for students and researchers reuse text from other authors, and makes it difficult to verify the originality of a given text. Reusing text without crediting the source is considered plagiarism. A number of studies have reported on the high prevalence of plagiarism in academia. As a result, many institutions and researchers have developed systems that automate the plagiarism detection process. Most of the existing work is based on the analysis of the similarity of the textual content of documents to assess the existence of plagiarism. More recently, similarity metrics that ignore the text and just analyze the citations and/or references shared between documents have been proposed. However, cases in which the author does not reference the original source may go unnoticed by metrics based only on the references/citations analysis. In this context, the proposed solution is based on the hypothesis that the combination of content similarity metrics and references/citations can improve the quality of plagiarism detection. Two forms of combination are proposed: (i) scores produced by the similarity metrics are used to ranking of pairs of documents and (ii) scores of metrics are used to construct feature vectors that are used by algorithms machine learning to classify documents. The experiments were performed with real data sets of papers. The experimental evaluation shows that the hypothesis was confirmed when the combination of the similarity metrics using machine learning is compared with the simple combining. Also, both compounds showed gains when compared with the metrics applied individually.application/pdfporLinguística computacionalRecuperacao : InformacaoPlágioArtigo científicoPlagiarism detectionContent similatityCitation analysisCombinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicosCombining content- and citation-based metrics for plagiarism detection in scientific papers info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2015doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000971628.pdf000971628.pdfTexto completoapplication/pdf2368643http://www.lume.ufrgs.br/bitstream/10183/122510/1/000971628.pdffcb1123d30e0918bec298fd8e0f4d3e5MD51TEXT000971628.pdf.txt000971628.pdf.txtExtracted Texttext/plain174022http://www.lume.ufrgs.br/bitstream/10183/122510/2/000971628.pdf.txtc6d53c68ac159d30adeda3eb8f5650f2MD52THUMBNAIL000971628.pdf.jpg000971628.pdf.jpgGenerated Thumbnailimage/jpeg1112http://www.lume.ufrgs.br/bitstream/10183/122510/3/000971628.pdf.jpg45cb3c78d90a81c02534894d99947e2fMD5310183/1225102021-07-09 04:35:35.150252oai:www.lume.ufrgs.br:10183/122510Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532021-07-09T07:35:35Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos
dc.title.alternative.en.fl_str_mv Combining content- and citation-based metrics for plagiarism detection in scientific papers
title Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos
spellingShingle Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos
Pertile, Solange de Lurdes
Linguística computacional
Recuperacao : Informacao
Plágio
Artigo científico
Plagiarism detection
Content similatity
Citation analysis
title_short Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos
title_full Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos
title_fullStr Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos
title_full_unstemmed Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos
title_sort Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos
author Pertile, Solange de Lurdes
author_facet Pertile, Solange de Lurdes
author_role author
dc.contributor.author.fl_str_mv Pertile, Solange de Lurdes
dc.contributor.advisor1.fl_str_mv Moreira, Viviane Pereira
contributor_str_mv Moreira, Viviane Pereira
dc.subject.por.fl_str_mv Linguística computacional
Recuperacao : Informacao
Plágio
Artigo científico
topic Linguística computacional
Recuperacao : Informacao
Plágio
Artigo científico
Plagiarism detection
Content similatity
Citation analysis
dc.subject.eng.fl_str_mv Plagiarism detection
Content similatity
Citation analysis
description A grande quantidade de artigos científicos disponíveis on-line faz com que seja mais fácil para estudantes e pesquisadores reutilizarem texto de outros autores, e torna mais difícil a verificação da originalidade de um determinado texto. Reutilizar texto sem creditar a fonte é considerado plágio. Uma série de estudos relatam a alta prevalência de plágio no meio acadêmico e científico. Como consequência, inúmeras instituições e pesquisadores têm se dedicado à elaboração de sistemas para automatizar o processo de verificação de plágio. A maioria dos trabalhos existentes baseia-se na análise da similaridade do conteúdo textual dos documentos para avaliar a existência de plágio. Mais recentemente, foram propostas métricas de similaridade que desconsideram o texto e analisam apenas as citações e/ou referências bibliográficas compartilhadas entre documentos. Entretanto, casos em que o autor não referencia a fonte original pode passar despercebido pelas métricas baseadas apenas na análise de referências/citações. Neste contexto, a solução proposta é baseada na hipótese de que a combinação de métricas de similaridade de conteúdo e de citações/referências pode melhorar a qualidade da detecção de plágio. Duas formas de combinação são propostas: (i) os escores produzidos pelas métricas de similaridade são utilizados para ranqueamento dos pares de documentos e (ii) os escores das métricas são utilizados para construir vetores de características que serão usados por algoritmos de Aprendizagem de Máquina para classificar os documentos. Os experimentos foram realizados com conjuntos de dados reais de artigos científicos. A avaliação experimental mostra que a hipótese foi confirmada quando a combinação das métricas de similaridade usando Aprendizagem de Máquina é comparada com a combinação simples. Ainda, ambas as combinações apresentaram ganhos quando comparadas com as métricas aplicadas de forma individual.
publishDate 2015
dc.date.accessioned.fl_str_mv 2015-08-15T02:03:45Z
dc.date.issued.fl_str_mv 2015
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/122510
dc.identifier.nrb.pt_BR.fl_str_mv 000971628
url http://hdl.handle.net/10183/122510
identifier_str_mv 000971628
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/122510/1/000971628.pdf
http://www.lume.ufrgs.br/bitstream/10183/122510/2/000971628.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/122510/3/000971628.pdf.jpg
bitstream.checksum.fl_str_mv fcb1123d30e0918bec298fd8e0f4d3e5
c6d53c68ac159d30adeda3eb8f5650f2
45cb3c78d90a81c02534894d99947e2f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085330009718784