Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos

Pertile, Solange de Lurdes

Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos

Detalhes bibliográficos
Autor(a) principal:	Pertile, Solange de Lurdes
Data de Publicação:	2015
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/122510
Resumo:	A grande quantidade de artigos científicos disponíveis on-line faz com que seja mais fácil para estudantes e pesquisadores reutilizarem texto de outros autores, e torna mais difícil a verificação da originalidade de um determinado texto. Reutilizar texto sem creditar a fonte é considerado plágio. Uma série de estudos relatam a alta prevalência de plágio no meio acadêmico e científico. Como consequência, inúmeras instituições e pesquisadores têm se dedicado à elaboração de sistemas para automatizar o processo de verificação de plágio. A maioria dos trabalhos existentes baseia-se na análise da similaridade do conteúdo textual dos documentos para avaliar a existência de plágio. Mais recentemente, foram propostas métricas de similaridade que desconsideram o texto e analisam apenas as citações e/ou referências bibliográficas compartilhadas entre documentos. Entretanto, casos em que o autor não referencia a fonte original pode passar despercebido pelas métricas baseadas apenas na análise de referências/citações. Neste contexto, a solução proposta é baseada na hipótese de que a combinação de métricas de similaridade de conteúdo e de citações/referências pode melhorar a qualidade da detecção de plágio. Duas formas de combinação são propostas: (i) os escores produzidos pelas métricas de similaridade são utilizados para ranqueamento dos pares de documentos e (ii) os escores das métricas são utilizados para construir vetores de características que serão usados por algoritmos de Aprendizagem de Máquina para classificar os documentos. Os experimentos foram realizados com conjuntos de dados reais de artigos científicos. A avaliação experimental mostra que a hipótese foi confirmada quando a combinação das métricas de similaridade usando Aprendizagem de Máquina é comparada com a combinação simples. Ainda, ambas as combinações apresentaram ganhos quando comparadas com as métricas aplicadas de forma individual.

Metadados do item

id	URGS_c7de2f3ad0d963845b91281c4491e270
oai_identifier_str	oai:www.lume.ufrgs.br:10183/122510
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Pertile, Solange de LurdesMoreira, Viviane Pereira2015-08-15T02:03:45Z2015http://hdl.handle.net/10183/122510000971628A grande quantidade de artigos científicos disponíveis on-line faz com que seja mais fácil para estudantes e pesquisadores reutilizarem texto de outros autores, e torna mais difícil a verificação da originalidade de um determinado texto. Reutilizar texto sem creditar a fonte é considerado plágio. Uma série de estudos relatam a alta prevalência de plágio no meio acadêmico e científico. Como consequência, inúmeras instituições e pesquisadores têm se dedicado à elaboração de sistemas para automatizar o processo de verificação de plágio. A maioria dos trabalhos existentes baseia-se na análise da similaridade do conteúdo textual dos documentos para avaliar a existência de plágio. Mais recentemente, foram propostas métricas de similaridade que desconsideram o texto e analisam apenas as citações e/ou referências bibliográficas compartilhadas entre documentos. Entretanto, casos em que o autor não referencia a fonte original pode passar despercebido pelas métricas baseadas apenas na análise de referências/citações. Neste contexto, a solução proposta é baseada na hipótese de que a combinação de métricas de similaridade de conteúdo e de citações/referências pode melhorar a qualidade da detecção de plágio. Duas formas de combinação são propostas: (i) os escores produzidos pelas métricas de similaridade são utilizados para ranqueamento dos pares de documentos e (ii) os escores das métricas são utilizados para construir vetores de características que serão usados por algoritmos de Aprendizagem de Máquina para classificar os documentos. Os experimentos foram realizados com conjuntos de dados reais de artigos científicos. A avaliação experimental mostra que a hipótese foi confirmada quando a combinação das métricas de similaridade usando Aprendizagem de Máquina é comparada com a combinação simples. Ainda, ambas as combinações apresentaram ganhos quando comparadas com as métricas aplicadas de forma individual.The large amount of scientific documents available online makes it easier for students and researchers reuse text from other authors, and makes it difficult to verify the originality of a given text. Reusing text without crediting the source is considered plagiarism. A number of studies have reported on the high prevalence of plagiarism in academia. As a result, many institutions and researchers have developed systems that automate the plagiarism detection process. Most of the existing work is based on the analysis of the similarity of the textual content of documents to assess the existence of plagiarism. More recently, similarity metrics that ignore the text and just analyze the citations and/or references shared between documents have been proposed. However, cases in which the author does not reference the original source may go unnoticed by metrics based only on the references/citations analysis. In this context, the proposed solution is based on the hypothesis that the combination of content similarity metrics and references/citations can improve the quality of plagiarism detection. Two forms of combination are proposed: (i) scores produced by the similarity metrics are used to ranking of pairs of documents and (ii) scores of metrics are used to construct feature vectors that are used by algorithms machine learning to classify documents. The experiments were performed with real data sets of papers. The experimental evaluation shows that the hypothesis was confirmed when the combination of the similarity metrics using machine learning is compared with the simple combining. Also, both compounds showed gains when compared with the metrics applied individually.application/pdfporLinguística computacionalRecuperacao : InformacaoPlágioArtigo científicoPlagiarism detectionContent similatityCitation analysisCombinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicosCombining content- and citation-based metrics for plagiarism detection in scientific papers info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2015doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000971628.pdf000971628.pdfTexto completoapplication/pdf2368643http://www.lume.ufrgs.br/bitstream/10183/122510/1/000971628.pdffcb1123d30e0918bec298fd8e0f4d3e5MD51TEXT000971628.pdf.txt000971628.pdf.txtExtracted Texttext/plain174022http://www.lume.ufrgs.br/bitstream/10183/122510/2/000971628.pdf.txtc6d53c68ac159d30adeda3eb8f5650f2MD52THUMBNAIL000971628.pdf.jpg000971628.pdf.jpgGenerated Thumbnailimage/jpeg1112http://www.lume.ufrgs.br/bitstream/10183/122510/3/000971628.pdf.jpg45cb3c78d90a81c02534894d99947e2fMD5310183/1225102021-07-09 04:35:35.150252oai:www.lume.ufrgs.br:10183/122510Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532021-07-09T07:35:35Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos
dc.title.alternative.en.fl_str_mv	Combining content- and citation-based metrics for plagiarism detection in scientific papers
title	Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos
spellingShingle	Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos Pertile, Solange de Lurdes Linguística computacional Recuperacao : Informacao Plágio Artigo científico Plagiarism detection Content similatity Citation analysis
title_short	Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos
title_full	Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos
title_fullStr	Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos
title_full_unstemmed	Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos
title_sort	Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos
author	Pertile, Solange de Lurdes
author_facet	Pertile, Solange de Lurdes
author_role	author
dc.contributor.author.fl_str_mv	Pertile, Solange de Lurdes
dc.contributor.advisor1.fl_str_mv	Moreira, Viviane Pereira
contributor_str_mv	Moreira, Viviane Pereira
dc.subject.por.fl_str_mv	Linguística computacional Recuperacao : Informacao Plágio Artigo científico
topic	Linguística computacional Recuperacao : Informacao Plágio Artigo científico Plagiarism detection Content similatity Citation analysis
dc.subject.eng.fl_str_mv	Plagiarism detection Content similatity Citation analysis
description	A grande quantidade de artigos científicos disponíveis on-line faz com que seja mais fácil para estudantes e pesquisadores reutilizarem texto de outros autores, e torna mais difícil a verificação da originalidade de um determinado texto. Reutilizar texto sem creditar a fonte é considerado plágio. Uma série de estudos relatam a alta prevalência de plágio no meio acadêmico e científico. Como consequência, inúmeras instituições e pesquisadores têm se dedicado à elaboração de sistemas para automatizar o processo de verificação de plágio. A maioria dos trabalhos existentes baseia-se na análise da similaridade do conteúdo textual dos documentos para avaliar a existência de plágio. Mais recentemente, foram propostas métricas de similaridade que desconsideram o texto e analisam apenas as citações e/ou referências bibliográficas compartilhadas entre documentos. Entretanto, casos em que o autor não referencia a fonte original pode passar despercebido pelas métricas baseadas apenas na análise de referências/citações. Neste contexto, a solução proposta é baseada na hipótese de que a combinação de métricas de similaridade de conteúdo e de citações/referências pode melhorar a qualidade da detecção de plágio. Duas formas de combinação são propostas: (i) os escores produzidos pelas métricas de similaridade são utilizados para ranqueamento dos pares de documentos e (ii) os escores das métricas são utilizados para construir vetores de características que serão usados por algoritmos de Aprendizagem de Máquina para classificar os documentos. Os experimentos foram realizados com conjuntos de dados reais de artigos científicos. A avaliação experimental mostra que a hipótese foi confirmada quando a combinação das métricas de similaridade usando Aprendizagem de Máquina é comparada com a combinação simples. Ainda, ambas as combinações apresentaram ganhos quando comparadas com as métricas aplicadas de forma individual.
publishDate	2015
dc.date.accessioned.fl_str_mv	2015-08-15T02:03:45Z
dc.date.issued.fl_str_mv	2015
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/122510
dc.identifier.nrb.pt_BR.fl_str_mv	000971628
url	http://hdl.handle.net/10183/122510
identifier_str_mv	000971628
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/122510/1/000971628.pdf http://www.lume.ufrgs.br/bitstream/10183/122510/2/000971628.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/122510/3/000971628.pdf.jpg
bitstream.checksum.fl_str_mv	fcb1123d30e0918bec298fd8e0f4d3e5 c6d53c68ac159d30adeda3eb8f5650f2 45cb3c78d90a81c02534894d99947e2f
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1810085330009718784

Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos

Registros relacionados