Atribuição automática de autoria de obras da literatura brasileira

Detalhes bibliográficos
Autor(a) principal: Nobre Neto, Francisco Dantas
Data de Publicação: 2010
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFPB
Texto Completo: https://repositorio.ufpb.br/jspui/handle/tede/6121
Resumo: Authorship attribution consists in categorizing an unknown document among some classes of authors previously selected. Knowledge about authorship of a text can be useful when it is required to detect plagiarism in any literary document or to properly give the credits to the author of a book. The most intuitive form of human analysis of a text is by selecting some characteristics that it has. The study of selecting attributes in any written document, such as average word length and vocabulary richness, is known as stylometry. For human analysis of an unknown text, the authorship discovery can take months, also becoming tiring activity. Some computational tools have the functionality of extracting such characteristics from the text, leaving the subjective analysis to the researcher. However, there are computational methods that, in addition to extract attributes, make the authorship attribution, based in the characteristics gathered in the text. Techniques such as neural network, decision tree and classification methods have been applied to this context and presented results that make them relevant to this question. This work presents a data compression method, Prediction by Partial Matching (PPM), as a solution of the authorship attribution problem of Brazilian literary works. The writers and works selected to compose the authors database were, mainly, by their representative in national literature. Besides, the availability of the books has also been considered. The PPM performs the authorship identification without any subjective interference in the text analysis. This method, also, does not make use of attributes presents in the text, differently of others methods. The correct classification rate obtained with PPM, in this work, was approximately 93%, while related works exposes a correct rate between 72% and 89%. In this work, was done, also, authorship attribution with SVM approach. For that, were selected attributes in the text divided in two groups, one word based and other in function-words frequency, obtaining a correct rate of 36,6% and 88,4%, respectively.
id UFPB_29b40ed874bf993840b583e59c0b30a2
oai_identifier_str oai:repositorio.ufpb.br:tede/6121
network_acronym_str UFPB
network_name_str Biblioteca Digital de Teses e Dissertações da UFPB
repository_id_str
spelling Atribuição automática de autoria de obras da literatura brasileiraAtribuição de autoriaPrediction by Partial Matching (PPM)Processamento de Linguagem Natural (PLN)literatura brasileiraEstilometriaAuthorship AttributionPrediction by Partial Matching (PPM)Natural Language Processing (NLP)Brazilian literaturestylometryCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOAuthorship attribution consists in categorizing an unknown document among some classes of authors previously selected. Knowledge about authorship of a text can be useful when it is required to detect plagiarism in any literary document or to properly give the credits to the author of a book. The most intuitive form of human analysis of a text is by selecting some characteristics that it has. The study of selecting attributes in any written document, such as average word length and vocabulary richness, is known as stylometry. For human analysis of an unknown text, the authorship discovery can take months, also becoming tiring activity. Some computational tools have the functionality of extracting such characteristics from the text, leaving the subjective analysis to the researcher. However, there are computational methods that, in addition to extract attributes, make the authorship attribution, based in the characteristics gathered in the text. Techniques such as neural network, decision tree and classification methods have been applied to this context and presented results that make them relevant to this question. This work presents a data compression method, Prediction by Partial Matching (PPM), as a solution of the authorship attribution problem of Brazilian literary works. The writers and works selected to compose the authors database were, mainly, by their representative in national literature. Besides, the availability of the books has also been considered. The PPM performs the authorship identification without any subjective interference in the text analysis. This method, also, does not make use of attributes presents in the text, differently of others methods. The correct classification rate obtained with PPM, in this work, was approximately 93%, while related works exposes a correct rate between 72% and 89%. In this work, was done, also, authorship attribution with SVM approach. For that, were selected attributes in the text divided in two groups, one word based and other in function-words frequency, obtaining a correct rate of 36,6% and 88,4%, respectively.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorAtribuição de autoria consiste em categorizar um documento desconhecido dentre algumas classes de autores previamente selecionadas. Saber a autoria de um texto pode ser útil quando é necessário detectar plágio em alguma obra literária ou dar os devidos créditos ao autor de um livro. A forma mais intuitiva ao ser humano para se analisar um texto é selecionando algumas características que ele possui. O estudo de selecionar atributos em um documento escrito, como tamanho médio das palavras e riqueza vocabular, é conhecido como estilometria. Para análise humana de um texto desconhecido, descobrir a autoria pode demandar meses, além de se tornar uma tarefa cansativa. Algumas ferramentas computacionais têm a funcionalidade de extrair tais características do texto, deixando a análise subjetiva para o pesquisador. No entanto, existem métodos computacionais que, além de extrair atributos, atribuem a autoria baseado nas características colhidas ao longo do texto. Técnicas como redes neurais, árvores de decisão e métodos de classificação já foram aplicados neste contexto e apresentaram resultados que os tornam relevantes para tal questão. Este trabalho apresenta um método de compressão de dados, o Prediction by Partial Matching (PPM), para solução do problema de atribuição de autoria de obras da literatura brasileira. Os escritores e obras selecionados para compor o banco de autores se deram, principalmente, pela representatividade que possuem na literatura nacional. Além disso, a disponibilidade dos livros em formato eletrônico também foi considerada. O PPM realiza a identificação de autoria sem ter qualquer interferência subjetiva na análise do texto. Este método, também, não faz uso de atributos presentes ao longo do texto, diferentemente de outros métodos. A taxa de classificação correta alcançada com o PPM, neste trabalho, foi de aproximadamente 93%, enquanto que trabalhos relacionados mostram uma taxa de acerto entre 72% e 89%. Neste trabalho, também foi realizado atribuição de autoria com a abordagem SVM. Para isso, foram selecionados atributos no texto dividido em dois tipos, sendo um baseado em palavras e o outro na contagem de palavrasfunção, obtendo uma taxa de acerto de 36,6% e 88,4%, respectivamente.Universidade Federal da Paraí­baBRInformáticaPrograma de Pós Graduação em InformáticaUFPBBatista, Leonardo Vidalhttp://lattes.cnpq.br/1047122596139990Nobre Neto, Francisco Dantas2015-05-14T12:36:48Z2018-07-21T00:15:21Z2010-03-122018-07-21T00:15:21Z2010-01-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfNOBRE NETO, Francisco Dantas. Atribuição automática de autoria de obras da literatura brasileira. 2010. 92 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraí­ba, João Pessoa, 2010.https://repositorio.ufpb.br/jspui/handle/tede/6121porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFPBinstname:Universidade Federal da Paraíba (UFPB)instacron:UFPB2019-08-29T13:09:26Zoai:repositorio.ufpb.br:tede/6121Biblioteca Digital de Teses e Dissertaçõeshttps://repositorio.ufpb.br/PUBhttp://tede.biblioteca.ufpb.br:8080/oai/requestdiretoria@ufpb.br|| diretoria@ufpb.bropendoar:2019-08-29T13:09:26Biblioteca Digital de Teses e Dissertações da UFPB - Universidade Federal da Paraíba (UFPB)false
dc.title.none.fl_str_mv Atribuição automática de autoria de obras da literatura brasileira
title Atribuição automática de autoria de obras da literatura brasileira
spellingShingle Atribuição automática de autoria de obras da literatura brasileira
Nobre Neto, Francisco Dantas
Atribuição de autoria
Prediction by Partial Matching (PPM)
Processamento de Linguagem Natural (PLN)
literatura brasileira
Estilometria
Authorship Attribution
Prediction by Partial Matching (PPM)
Natural Language Processing (NLP)
Brazilian literature
stylometry
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Atribuição automática de autoria de obras da literatura brasileira
title_full Atribuição automática de autoria de obras da literatura brasileira
title_fullStr Atribuição automática de autoria de obras da literatura brasileira
title_full_unstemmed Atribuição automática de autoria de obras da literatura brasileira
title_sort Atribuição automática de autoria de obras da literatura brasileira
author Nobre Neto, Francisco Dantas
author_facet Nobre Neto, Francisco Dantas
author_role author
dc.contributor.none.fl_str_mv Batista, Leonardo Vidal
http://lattes.cnpq.br/1047122596139990
dc.contributor.author.fl_str_mv Nobre Neto, Francisco Dantas
dc.subject.por.fl_str_mv Atribuição de autoria
Prediction by Partial Matching (PPM)
Processamento de Linguagem Natural (PLN)
literatura brasileira
Estilometria
Authorship Attribution
Prediction by Partial Matching (PPM)
Natural Language Processing (NLP)
Brazilian literature
stylometry
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic Atribuição de autoria
Prediction by Partial Matching (PPM)
Processamento de Linguagem Natural (PLN)
literatura brasileira
Estilometria
Authorship Attribution
Prediction by Partial Matching (PPM)
Natural Language Processing (NLP)
Brazilian literature
stylometry
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Authorship attribution consists in categorizing an unknown document among some classes of authors previously selected. Knowledge about authorship of a text can be useful when it is required to detect plagiarism in any literary document or to properly give the credits to the author of a book. The most intuitive form of human analysis of a text is by selecting some characteristics that it has. The study of selecting attributes in any written document, such as average word length and vocabulary richness, is known as stylometry. For human analysis of an unknown text, the authorship discovery can take months, also becoming tiring activity. Some computational tools have the functionality of extracting such characteristics from the text, leaving the subjective analysis to the researcher. However, there are computational methods that, in addition to extract attributes, make the authorship attribution, based in the characteristics gathered in the text. Techniques such as neural network, decision tree and classification methods have been applied to this context and presented results that make them relevant to this question. This work presents a data compression method, Prediction by Partial Matching (PPM), as a solution of the authorship attribution problem of Brazilian literary works. The writers and works selected to compose the authors database were, mainly, by their representative in national literature. Besides, the availability of the books has also been considered. The PPM performs the authorship identification without any subjective interference in the text analysis. This method, also, does not make use of attributes presents in the text, differently of others methods. The correct classification rate obtained with PPM, in this work, was approximately 93%, while related works exposes a correct rate between 72% and 89%. In this work, was done, also, authorship attribution with SVM approach. For that, were selected attributes in the text divided in two groups, one word based and other in function-words frequency, obtaining a correct rate of 36,6% and 88,4%, respectively.
publishDate 2010
dc.date.none.fl_str_mv 2010-03-12
2010-01-19
2015-05-14T12:36:48Z
2018-07-21T00:15:21Z
2018-07-21T00:15:21Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv NOBRE NETO, Francisco Dantas. Atribuição automática de autoria de obras da literatura brasileira. 2010. 92 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraí­ba, João Pessoa, 2010.
https://repositorio.ufpb.br/jspui/handle/tede/6121
identifier_str_mv NOBRE NETO, Francisco Dantas. Atribuição automática de autoria de obras da literatura brasileira. 2010. 92 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraí­ba, João Pessoa, 2010.
url https://repositorio.ufpb.br/jspui/handle/tede/6121
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal da Paraí­ba
BR
Informática
Programa de Pós Graduação em Informática
UFPB
publisher.none.fl_str_mv Universidade Federal da Paraí­ba
BR
Informática
Programa de Pós Graduação em Informática
UFPB
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFPB
instname:Universidade Federal da Paraíba (UFPB)
instacron:UFPB
instname_str Universidade Federal da Paraíba (UFPB)
instacron_str UFPB
institution UFPB
reponame_str Biblioteca Digital de Teses e Dissertações da UFPB
collection Biblioteca Digital de Teses e Dissertações da UFPB
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFPB - Universidade Federal da Paraíba (UFPB)
repository.mail.fl_str_mv diretoria@ufpb.br|| diretoria@ufpb.br
_version_ 1801842904603295744