Atribuição de perfis de autoria

Detalhes bibliográficos
Autor(a) principal: Weren, Edson Roberto Duarte
Data de Publicação: 2014
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/108592
Resumo: A identificação de perfis de autoria visa classificar os textos com base nas escolhas estilísticas de seus autores. A ideia é descobrir as características dos autores dos textos. Esta tarefa tem uma importância crescente em análise forense, segurança e marketing. Neste trabalho, nos concentramos em descobrir a idade e o gênero dos autores de blogs. Com este objetivo em mente, analisamos um grande número de atributos - que variam de recuperação de informação até análise de sentimento. Esta dissertação relata a utilidade desses atributos. Uma avaliação experimental em um corpus com mais de 236K posts de blogs mostrou que um classificador usando os atributos explorados aqui supera o estado-da arte. Mais importante ainda, as experiências mostram que os atributos oriundos de recuperação de informação propostos neste trabalho são os mais discriminativos e produzem as melhores previsões.
id URGS_80808762f73c52f1b035b88bf923bb10
oai_identifier_str oai:www.lume.ufrgs.br:10183/108592
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Weren, Edson Roberto DuarteMoreira, Viviane PereiraOliveira, Jose Palazzo Moreira de2014-12-23T02:13:52Z2014http://hdl.handle.net/10183/108592000949234A identificação de perfis de autoria visa classificar os textos com base nas escolhas estilísticas de seus autores. A ideia é descobrir as características dos autores dos textos. Esta tarefa tem uma importância crescente em análise forense, segurança e marketing. Neste trabalho, nos concentramos em descobrir a idade e o gênero dos autores de blogs. Com este objetivo em mente, analisamos um grande número de atributos - que variam de recuperação de informação até análise de sentimento. Esta dissertação relata a utilidade desses atributos. Uma avaliação experimental em um corpus com mais de 236K posts de blogs mostrou que um classificador usando os atributos explorados aqui supera o estado-da arte. Mais importante ainda, as experiências mostram que os atributos oriundos de recuperação de informação propostos neste trabalho são os mais discriminativos e produzem as melhores previsões.Authorship analysis aims at classifying texts based on the stylistic choices of their authors. The idea is to discover characteristics of the authors of the texts. This task has a growing importance in forensics, security, and marketing. In this work, we focus on discovering age and gender from blog authors. With this goal in mind, we analyzed a large number of features – ranging from Information Retrieval to Sentiment Analysis. This paper reports on the usefulness of these features. Experiments on a corpus of over 236K blogs show that a classifier using the features explored here have outperformed the stateof- the art. More importantly, the experiments show that the Information Retrieval features proposed in our work are the most discriminative and yield the best class predictions.application/pdfporRecuperacao : InformacaoProcessamento : PalavraInterface : UsuarioInformation storage and retrievalDocumentText processingAtribuição de perfis de autoriaAuthor profiling info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2014mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000949234.pdf000949234.pdfTexto completoapplication/pdf1171430http://www.lume.ufrgs.br/bitstream/10183/108592/1/000949234.pdfdc0d5e9ef2a26bb45280cce800060120MD51TEXT000949234.pdf.txt000949234.pdf.txtExtracted Texttext/plain95252http://www.lume.ufrgs.br/bitstream/10183/108592/2/000949234.pdf.txtc827e9fa435eac8a45404002e35a6503MD52THUMBNAIL000949234.pdf.jpg000949234.pdf.jpgGenerated Thumbnailimage/jpeg1071http://www.lume.ufrgs.br/bitstream/10183/108592/3/000949234.pdf.jpg2fda3c8c6ea8f00925634accff2fcec7MD5310183/1085922018-10-22 09:29:19.073oai:www.lume.ufrgs.br:10183/108592Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-22T12:29:19Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Atribuição de perfis de autoria
dc.title.alternative.en.fl_str_mv Author profiling
title Atribuição de perfis de autoria
spellingShingle Atribuição de perfis de autoria
Weren, Edson Roberto Duarte
Recuperacao : Informacao
Processamento : Palavra
Interface : Usuario
Information storage and retrieval
Document
Text processing
title_short Atribuição de perfis de autoria
title_full Atribuição de perfis de autoria
title_fullStr Atribuição de perfis de autoria
title_full_unstemmed Atribuição de perfis de autoria
title_sort Atribuição de perfis de autoria
author Weren, Edson Roberto Duarte
author_facet Weren, Edson Roberto Duarte
author_role author
dc.contributor.author.fl_str_mv Weren, Edson Roberto Duarte
dc.contributor.advisor1.fl_str_mv Moreira, Viviane Pereira
dc.contributor.advisor-co1.fl_str_mv Oliveira, Jose Palazzo Moreira de
contributor_str_mv Moreira, Viviane Pereira
Oliveira, Jose Palazzo Moreira de
dc.subject.por.fl_str_mv Recuperacao : Informacao
Processamento : Palavra
Interface : Usuario
topic Recuperacao : Informacao
Processamento : Palavra
Interface : Usuario
Information storage and retrieval
Document
Text processing
dc.subject.eng.fl_str_mv Information storage and retrieval
Document
Text processing
description A identificação de perfis de autoria visa classificar os textos com base nas escolhas estilísticas de seus autores. A ideia é descobrir as características dos autores dos textos. Esta tarefa tem uma importância crescente em análise forense, segurança e marketing. Neste trabalho, nos concentramos em descobrir a idade e o gênero dos autores de blogs. Com este objetivo em mente, analisamos um grande número de atributos - que variam de recuperação de informação até análise de sentimento. Esta dissertação relata a utilidade desses atributos. Uma avaliação experimental em um corpus com mais de 236K posts de blogs mostrou que um classificador usando os atributos explorados aqui supera o estado-da arte. Mais importante ainda, as experiências mostram que os atributos oriundos de recuperação de informação propostos neste trabalho são os mais discriminativos e produzem as melhores previsões.
publishDate 2014
dc.date.accessioned.fl_str_mv 2014-12-23T02:13:52Z
dc.date.issued.fl_str_mv 2014
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/108592
dc.identifier.nrb.pt_BR.fl_str_mv 000949234
url http://hdl.handle.net/10183/108592
identifier_str_mv 000949234
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/108592/1/000949234.pdf
http://www.lume.ufrgs.br/bitstream/10183/108592/2/000949234.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/108592/3/000949234.pdf.jpg
bitstream.checksum.fl_str_mv dc0d5e9ef2a26bb45280cce800060120
c827e9fa435eac8a45404002e35a6503
2fda3c8c6ea8f00925634accff2fcec7
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085307893153792