Atribuição de perfis de autoria
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/108592 |
Resumo: | A identificação de perfis de autoria visa classificar os textos com base nas escolhas estilísticas de seus autores. A ideia é descobrir as características dos autores dos textos. Esta tarefa tem uma importância crescente em análise forense, segurança e marketing. Neste trabalho, nos concentramos em descobrir a idade e o gênero dos autores de blogs. Com este objetivo em mente, analisamos um grande número de atributos - que variam de recuperação de informação até análise de sentimento. Esta dissertação relata a utilidade desses atributos. Uma avaliação experimental em um corpus com mais de 236K posts de blogs mostrou que um classificador usando os atributos explorados aqui supera o estado-da arte. Mais importante ainda, as experiências mostram que os atributos oriundos de recuperação de informação propostos neste trabalho são os mais discriminativos e produzem as melhores previsões. |
id |
URGS_80808762f73c52f1b035b88bf923bb10 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/108592 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Weren, Edson Roberto DuarteMoreira, Viviane PereiraOliveira, Jose Palazzo Moreira de2014-12-23T02:13:52Z2014http://hdl.handle.net/10183/108592000949234A identificação de perfis de autoria visa classificar os textos com base nas escolhas estilísticas de seus autores. A ideia é descobrir as características dos autores dos textos. Esta tarefa tem uma importância crescente em análise forense, segurança e marketing. Neste trabalho, nos concentramos em descobrir a idade e o gênero dos autores de blogs. Com este objetivo em mente, analisamos um grande número de atributos - que variam de recuperação de informação até análise de sentimento. Esta dissertação relata a utilidade desses atributos. Uma avaliação experimental em um corpus com mais de 236K posts de blogs mostrou que um classificador usando os atributos explorados aqui supera o estado-da arte. Mais importante ainda, as experiências mostram que os atributos oriundos de recuperação de informação propostos neste trabalho são os mais discriminativos e produzem as melhores previsões.Authorship analysis aims at classifying texts based on the stylistic choices of their authors. The idea is to discover characteristics of the authors of the texts. This task has a growing importance in forensics, security, and marketing. In this work, we focus on discovering age and gender from blog authors. With this goal in mind, we analyzed a large number of features – ranging from Information Retrieval to Sentiment Analysis. This paper reports on the usefulness of these features. Experiments on a corpus of over 236K blogs show that a classifier using the features explored here have outperformed the stateof- the art. More importantly, the experiments show that the Information Retrieval features proposed in our work are the most discriminative and yield the best class predictions.application/pdfporRecuperacao : InformacaoProcessamento : PalavraInterface : UsuarioInformation storage and retrievalDocumentText processingAtribuição de perfis de autoriaAuthor profiling info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2014mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000949234.pdf000949234.pdfTexto completoapplication/pdf1171430http://www.lume.ufrgs.br/bitstream/10183/108592/1/000949234.pdfdc0d5e9ef2a26bb45280cce800060120MD51TEXT000949234.pdf.txt000949234.pdf.txtExtracted Texttext/plain95252http://www.lume.ufrgs.br/bitstream/10183/108592/2/000949234.pdf.txtc827e9fa435eac8a45404002e35a6503MD52THUMBNAIL000949234.pdf.jpg000949234.pdf.jpgGenerated Thumbnailimage/jpeg1071http://www.lume.ufrgs.br/bitstream/10183/108592/3/000949234.pdf.jpg2fda3c8c6ea8f00925634accff2fcec7MD5310183/1085922018-10-22 09:29:19.073oai:www.lume.ufrgs.br:10183/108592Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-22T12:29:19Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Atribuição de perfis de autoria |
dc.title.alternative.en.fl_str_mv |
Author profiling |
title |
Atribuição de perfis de autoria |
spellingShingle |
Atribuição de perfis de autoria Weren, Edson Roberto Duarte Recuperacao : Informacao Processamento : Palavra Interface : Usuario Information storage and retrieval Document Text processing |
title_short |
Atribuição de perfis de autoria |
title_full |
Atribuição de perfis de autoria |
title_fullStr |
Atribuição de perfis de autoria |
title_full_unstemmed |
Atribuição de perfis de autoria |
title_sort |
Atribuição de perfis de autoria |
author |
Weren, Edson Roberto Duarte |
author_facet |
Weren, Edson Roberto Duarte |
author_role |
author |
dc.contributor.author.fl_str_mv |
Weren, Edson Roberto Duarte |
dc.contributor.advisor1.fl_str_mv |
Moreira, Viviane Pereira |
dc.contributor.advisor-co1.fl_str_mv |
Oliveira, Jose Palazzo Moreira de |
contributor_str_mv |
Moreira, Viviane Pereira Oliveira, Jose Palazzo Moreira de |
dc.subject.por.fl_str_mv |
Recuperacao : Informacao Processamento : Palavra Interface : Usuario |
topic |
Recuperacao : Informacao Processamento : Palavra Interface : Usuario Information storage and retrieval Document Text processing |
dc.subject.eng.fl_str_mv |
Information storage and retrieval Document Text processing |
description |
A identificação de perfis de autoria visa classificar os textos com base nas escolhas estilísticas de seus autores. A ideia é descobrir as características dos autores dos textos. Esta tarefa tem uma importância crescente em análise forense, segurança e marketing. Neste trabalho, nos concentramos em descobrir a idade e o gênero dos autores de blogs. Com este objetivo em mente, analisamos um grande número de atributos - que variam de recuperação de informação até análise de sentimento. Esta dissertação relata a utilidade desses atributos. Uma avaliação experimental em um corpus com mais de 236K posts de blogs mostrou que um classificador usando os atributos explorados aqui supera o estado-da arte. Mais importante ainda, as experiências mostram que os atributos oriundos de recuperação de informação propostos neste trabalho são os mais discriminativos e produzem as melhores previsões. |
publishDate |
2014 |
dc.date.accessioned.fl_str_mv |
2014-12-23T02:13:52Z |
dc.date.issued.fl_str_mv |
2014 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/108592 |
dc.identifier.nrb.pt_BR.fl_str_mv |
000949234 |
url |
http://hdl.handle.net/10183/108592 |
identifier_str_mv |
000949234 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/108592/1/000949234.pdf http://www.lume.ufrgs.br/bitstream/10183/108592/2/000949234.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/108592/3/000949234.pdf.jpg |
bitstream.checksum.fl_str_mv |
dc0d5e9ef2a26bb45280cce800060120 c827e9fa435eac8a45404002e35a6503 2fda3c8c6ea8f00925634accff2fcec7 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1816736904375173120 |