Métodos de clusterização para apoio à classificação estética de documentos

Detalhes bibliográficos
Autor(a) principal: Primo, Tiago Thompsen
Data de Publicação: 2008
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da PUC_RS
Texto Completo: http://tede2.pucrs.br/tede2/handle/tede/5028
Resumo: Neste trabalho serão abordados estudos referentes à classificação de grande quantidade de documentos de conteúdo variável. Em tal processo quando um grande número de documentos é gerado, existe a necessidade de um usuário verificá-los um a um com a intenção de separá-los em bons (com pouco ou nenhum problema estrutural) ou ruins (que possuem problemas estruturais), processo este considerado lento e oneroso. Considerando este problema, neste trabalho foi desenvolvida uma ferramenta de classificação estética de documentos que visa reduzir esta intervenção humana. A ferramenta desenvolvida é baseada em métricas que avaliam o quanto um documento automaticamente gerado difere de seu template, criando para cada um destes documentos uma assinatura baseada nas técnicas de fingerprint, objetivando primeiramente distingui-los entre si para então utilizar técnicas de clusterização criando grupos de documentos com características semelhantes. O algoritmo K-Medóides é usado para fazer tal agrupamento, tal algoritmo funciona criando grupos de objetos considerando um destes como base para a criação de cada cluster. A idéia deste trabalho é reduzir a intervenção humana fazendo com que um usuário classifique em bom ou ruim apenas determinados documentos de cada grupo formado pelo algoritmo de clusterização. São também apresentados resultados de quatro experimentos realizados com esta ferramenta avaliando as contribuições para diminuir a intervenção humana no processo de classificação de documentos.
id P_RS_3fb6f6c620adf8b9ef1efddf727846d7
oai_identifier_str oai:tede2.pucrs.br:tede/5028
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Oliveira, João Batista Souza deCPF:56959974020http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4782562A4CPF:00203338030http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4772125D6Primo, Tiago Thompsen2015-04-14T14:49:01Z2008-10-212008-03-24PRIMO, Tiago Thompsen. Métodos de clusterização para apoio à classificação estética de documentos. 2008. 117 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2008.http://tede2.pucrs.br/tede2/handle/tede/5028Made available in DSpace on 2015-04-14T14:49:01Z (GMT). No. of bitstreams: 1 406128.pdf: 16056423 bytes, checksum: d4b22e3a871de544238db5630e9a295f (MD5) Previous issue date: 2008-03-24Neste trabalho serão abordados estudos referentes à classificação de grande quantidade de documentos de conteúdo variável. Em tal processo quando um grande número de documentos é gerado, existe a necessidade de um usuário verificá-los um a um com a intenção de separá-los em bons (com pouco ou nenhum problema estrutural) ou ruins (que possuem problemas estruturais), processo este considerado lento e oneroso. Considerando este problema, neste trabalho foi desenvolvida uma ferramenta de classificação estética de documentos que visa reduzir esta intervenção humana. A ferramenta desenvolvida é baseada em métricas que avaliam o quanto um documento automaticamente gerado difere de seu template, criando para cada um destes documentos uma assinatura baseada nas técnicas de fingerprint, objetivando primeiramente distingui-los entre si para então utilizar técnicas de clusterização criando grupos de documentos com características semelhantes. O algoritmo K-Medóides é usado para fazer tal agrupamento, tal algoritmo funciona criando grupos de objetos considerando um destes como base para a criação de cada cluster. A idéia deste trabalho é reduzir a intervenção humana fazendo com que um usuário classifique em bom ou ruim apenas determinados documentos de cada grupo formado pelo algoritmo de clusterização. São também apresentados resultados de quatro experimentos realizados com esta ferramenta avaliando as contribuições para diminuir a intervenção humana no processo de classificação de documentos.application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/13772/406128.pdf.jpgporPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBRFaculdade de InformácaINFORMÁTICAALGORITMOSAGRUPAMENTO DE INFORMAÇÕES (INFORMÁTICA)DOCUMENTAÇÃOCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOMétodos de clusterização para apoio à classificação estética de documentosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis19749965330812744705006001946639708616176246info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAIL406128.pdf.jpg406128.pdf.jpgimage/jpeg3605http://tede2.pucrs.br/tede2/bitstream/tede/5028/3/406128.pdf.jpgd194002ab55ff080115418da222fe959MD53TEXT406128.pdf.txt406128.pdf.txttext/plain146968http://tede2.pucrs.br/tede2/bitstream/tede/5028/2/406128.pdf.txt46cdfa0d34c01b11e39bb9acb96583b1MD52ORIGINAL406128.pdfapplication/pdf16056423http://tede2.pucrs.br/tede2/bitstream/tede/5028/1/406128.pdfd4b22e3a871de544238db5630e9a295fMD51tede/50282015-04-17 11:57:30.862oai:tede2.pucrs.br:tede/5028Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2015-04-17T14:57:30Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.por.fl_str_mv Métodos de clusterização para apoio à classificação estética de documentos
title Métodos de clusterização para apoio à classificação estética de documentos
spellingShingle Métodos de clusterização para apoio à classificação estética de documentos
Primo, Tiago Thompsen
INFORMÁTICA
ALGORITMOS
AGRUPAMENTO DE INFORMAÇÕES (INFORMÁTICA)
DOCUMENTAÇÃO
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Métodos de clusterização para apoio à classificação estética de documentos
title_full Métodos de clusterização para apoio à classificação estética de documentos
title_fullStr Métodos de clusterização para apoio à classificação estética de documentos
title_full_unstemmed Métodos de clusterização para apoio à classificação estética de documentos
title_sort Métodos de clusterização para apoio à classificação estética de documentos
author Primo, Tiago Thompsen
author_facet Primo, Tiago Thompsen
author_role author
dc.contributor.advisor1.fl_str_mv Oliveira, João Batista Souza de
dc.contributor.advisor1ID.fl_str_mv CPF:56959974020
dc.contributor.advisor1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4782562A4
dc.contributor.authorID.fl_str_mv CPF:00203338030
dc.contributor.authorLattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4772125D6
dc.contributor.author.fl_str_mv Primo, Tiago Thompsen
contributor_str_mv Oliveira, João Batista Souza de
dc.subject.por.fl_str_mv INFORMÁTICA
ALGORITMOS
AGRUPAMENTO DE INFORMAÇÕES (INFORMÁTICA)
DOCUMENTAÇÃO
topic INFORMÁTICA
ALGORITMOS
AGRUPAMENTO DE INFORMAÇÕES (INFORMÁTICA)
DOCUMENTAÇÃO
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Neste trabalho serão abordados estudos referentes à classificação de grande quantidade de documentos de conteúdo variável. Em tal processo quando um grande número de documentos é gerado, existe a necessidade de um usuário verificá-los um a um com a intenção de separá-los em bons (com pouco ou nenhum problema estrutural) ou ruins (que possuem problemas estruturais), processo este considerado lento e oneroso. Considerando este problema, neste trabalho foi desenvolvida uma ferramenta de classificação estética de documentos que visa reduzir esta intervenção humana. A ferramenta desenvolvida é baseada em métricas que avaliam o quanto um documento automaticamente gerado difere de seu template, criando para cada um destes documentos uma assinatura baseada nas técnicas de fingerprint, objetivando primeiramente distingui-los entre si para então utilizar técnicas de clusterização criando grupos de documentos com características semelhantes. O algoritmo K-Medóides é usado para fazer tal agrupamento, tal algoritmo funciona criando grupos de objetos considerando um destes como base para a criação de cada cluster. A idéia deste trabalho é reduzir a intervenção humana fazendo com que um usuário classifique em bom ou ruim apenas determinados documentos de cada grupo formado pelo algoritmo de clusterização. São também apresentados resultados de quatro experimentos realizados com esta ferramenta avaliando as contribuições para diminuir a intervenção humana no processo de classificação de documentos.
publishDate 2008
dc.date.available.fl_str_mv 2008-10-21
dc.date.issued.fl_str_mv 2008-03-24
dc.date.accessioned.fl_str_mv 2015-04-14T14:49:01Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv PRIMO, Tiago Thompsen. Métodos de clusterização para apoio à classificação estética de documentos. 2008. 117 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2008.
dc.identifier.uri.fl_str_mv http://tede2.pucrs.br/tede2/handle/tede/5028
identifier_str_mv PRIMO, Tiago Thompsen. Métodos de clusterização para apoio à classificação estética de documentos. 2008. 117 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2008.
url http://tede2.pucrs.br/tede2/handle/tede/5028
dc.language.iso.fl_str_mv por
language por
dc.relation.program.fl_str_mv 1974996533081274470
dc.relation.confidence.fl_str_mv 500
600
dc.relation.department.fl_str_mv 1946639708616176246
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv PUCRS
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Faculdade de Informáca
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
bitstream.url.fl_str_mv http://tede2.pucrs.br/tede2/bitstream/tede/5028/3/406128.pdf.jpg
http://tede2.pucrs.br/tede2/bitstream/tede/5028/2/406128.pdf.txt
http://tede2.pucrs.br/tede2/bitstream/tede/5028/1/406128.pdf
bitstream.checksum.fl_str_mv d194002ab55ff080115418da222fe959
46cdfa0d34c01b11e39bb9acb96583b1
d4b22e3a871de544238db5630e9a295f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1799765304767676416