Métodos de clusterização para apoio à classificação estética de documentos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2008 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da PUC_RS |
Texto Completo: | http://tede2.pucrs.br/tede2/handle/tede/5028 |
Resumo: | Neste trabalho serão abordados estudos referentes à classificação de grande quantidade de documentos de conteúdo variável. Em tal processo quando um grande número de documentos é gerado, existe a necessidade de um usuário verificá-los um a um com a intenção de separá-los em bons (com pouco ou nenhum problema estrutural) ou ruins (que possuem problemas estruturais), processo este considerado lento e oneroso. Considerando este problema, neste trabalho foi desenvolvida uma ferramenta de classificação estética de documentos que visa reduzir esta intervenção humana. A ferramenta desenvolvida é baseada em métricas que avaliam o quanto um documento automaticamente gerado difere de seu template, criando para cada um destes documentos uma assinatura baseada nas técnicas de fingerprint, objetivando primeiramente distingui-los entre si para então utilizar técnicas de clusterização criando grupos de documentos com características semelhantes. O algoritmo K-Medóides é usado para fazer tal agrupamento, tal algoritmo funciona criando grupos de objetos considerando um destes como base para a criação de cada cluster. A idéia deste trabalho é reduzir a intervenção humana fazendo com que um usuário classifique em bom ou ruim apenas determinados documentos de cada grupo formado pelo algoritmo de clusterização. São também apresentados resultados de quatro experimentos realizados com esta ferramenta avaliando as contribuições para diminuir a intervenção humana no processo de classificação de documentos. |
id |
P_RS_3fb6f6c620adf8b9ef1efddf727846d7 |
---|---|
oai_identifier_str |
oai:tede2.pucrs.br:tede/5028 |
network_acronym_str |
P_RS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
repository_id_str |
|
spelling |
Oliveira, João Batista Souza deCPF:56959974020http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4782562A4CPF:00203338030http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4772125D6Primo, Tiago Thompsen2015-04-14T14:49:01Z2008-10-212008-03-24PRIMO, Tiago Thompsen. Métodos de clusterização para apoio à classificação estética de documentos. 2008. 117 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2008.http://tede2.pucrs.br/tede2/handle/tede/5028Made available in DSpace on 2015-04-14T14:49:01Z (GMT). No. of bitstreams: 1 406128.pdf: 16056423 bytes, checksum: d4b22e3a871de544238db5630e9a295f (MD5) Previous issue date: 2008-03-24Neste trabalho serão abordados estudos referentes à classificação de grande quantidade de documentos de conteúdo variável. Em tal processo quando um grande número de documentos é gerado, existe a necessidade de um usuário verificá-los um a um com a intenção de separá-los em bons (com pouco ou nenhum problema estrutural) ou ruins (que possuem problemas estruturais), processo este considerado lento e oneroso. Considerando este problema, neste trabalho foi desenvolvida uma ferramenta de classificação estética de documentos que visa reduzir esta intervenção humana. A ferramenta desenvolvida é baseada em métricas que avaliam o quanto um documento automaticamente gerado difere de seu template, criando para cada um destes documentos uma assinatura baseada nas técnicas de fingerprint, objetivando primeiramente distingui-los entre si para então utilizar técnicas de clusterização criando grupos de documentos com características semelhantes. O algoritmo K-Medóides é usado para fazer tal agrupamento, tal algoritmo funciona criando grupos de objetos considerando um destes como base para a criação de cada cluster. A idéia deste trabalho é reduzir a intervenção humana fazendo com que um usuário classifique em bom ou ruim apenas determinados documentos de cada grupo formado pelo algoritmo de clusterização. São também apresentados resultados de quatro experimentos realizados com esta ferramenta avaliando as contribuições para diminuir a intervenção humana no processo de classificação de documentos.application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/13772/406128.pdf.jpgporPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBRFaculdade de InformácaINFORMÁTICAALGORITMOSAGRUPAMENTO DE INFORMAÇÕES (INFORMÁTICA)DOCUMENTAÇÃOCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOMétodos de clusterização para apoio à classificação estética de documentosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis19749965330812744705006001946639708616176246info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAIL406128.pdf.jpg406128.pdf.jpgimage/jpeg3605http://tede2.pucrs.br/tede2/bitstream/tede/5028/3/406128.pdf.jpgd194002ab55ff080115418da222fe959MD53TEXT406128.pdf.txt406128.pdf.txttext/plain146968http://tede2.pucrs.br/tede2/bitstream/tede/5028/2/406128.pdf.txt46cdfa0d34c01b11e39bb9acb96583b1MD52ORIGINAL406128.pdfapplication/pdf16056423http://tede2.pucrs.br/tede2/bitstream/tede/5028/1/406128.pdfd4b22e3a871de544238db5630e9a295fMD51tede/50282015-04-17 11:57:30.862oai:tede2.pucrs.br:tede/5028Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2015-04-17T14:57:30Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false |
dc.title.por.fl_str_mv |
Métodos de clusterização para apoio à classificação estética de documentos |
title |
Métodos de clusterização para apoio à classificação estética de documentos |
spellingShingle |
Métodos de clusterização para apoio à classificação estética de documentos Primo, Tiago Thompsen INFORMÁTICA ALGORITMOS AGRUPAMENTO DE INFORMAÇÕES (INFORMÁTICA) DOCUMENTAÇÃO CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Métodos de clusterização para apoio à classificação estética de documentos |
title_full |
Métodos de clusterização para apoio à classificação estética de documentos |
title_fullStr |
Métodos de clusterização para apoio à classificação estética de documentos |
title_full_unstemmed |
Métodos de clusterização para apoio à classificação estética de documentos |
title_sort |
Métodos de clusterização para apoio à classificação estética de documentos |
author |
Primo, Tiago Thompsen |
author_facet |
Primo, Tiago Thompsen |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Oliveira, João Batista Souza de |
dc.contributor.advisor1ID.fl_str_mv |
CPF:56959974020 |
dc.contributor.advisor1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4782562A4 |
dc.contributor.authorID.fl_str_mv |
CPF:00203338030 |
dc.contributor.authorLattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4772125D6 |
dc.contributor.author.fl_str_mv |
Primo, Tiago Thompsen |
contributor_str_mv |
Oliveira, João Batista Souza de |
dc.subject.por.fl_str_mv |
INFORMÁTICA ALGORITMOS AGRUPAMENTO DE INFORMAÇÕES (INFORMÁTICA) DOCUMENTAÇÃO |
topic |
INFORMÁTICA ALGORITMOS AGRUPAMENTO DE INFORMAÇÕES (INFORMÁTICA) DOCUMENTAÇÃO CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
Neste trabalho serão abordados estudos referentes à classificação de grande quantidade de documentos de conteúdo variável. Em tal processo quando um grande número de documentos é gerado, existe a necessidade de um usuário verificá-los um a um com a intenção de separá-los em bons (com pouco ou nenhum problema estrutural) ou ruins (que possuem problemas estruturais), processo este considerado lento e oneroso. Considerando este problema, neste trabalho foi desenvolvida uma ferramenta de classificação estética de documentos que visa reduzir esta intervenção humana. A ferramenta desenvolvida é baseada em métricas que avaliam o quanto um documento automaticamente gerado difere de seu template, criando para cada um destes documentos uma assinatura baseada nas técnicas de fingerprint, objetivando primeiramente distingui-los entre si para então utilizar técnicas de clusterização criando grupos de documentos com características semelhantes. O algoritmo K-Medóides é usado para fazer tal agrupamento, tal algoritmo funciona criando grupos de objetos considerando um destes como base para a criação de cada cluster. A idéia deste trabalho é reduzir a intervenção humana fazendo com que um usuário classifique em bom ou ruim apenas determinados documentos de cada grupo formado pelo algoritmo de clusterização. São também apresentados resultados de quatro experimentos realizados com esta ferramenta avaliando as contribuições para diminuir a intervenção humana no processo de classificação de documentos. |
publishDate |
2008 |
dc.date.available.fl_str_mv |
2008-10-21 |
dc.date.issued.fl_str_mv |
2008-03-24 |
dc.date.accessioned.fl_str_mv |
2015-04-14T14:49:01Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
PRIMO, Tiago Thompsen. Métodos de clusterização para apoio à classificação estética de documentos. 2008. 117 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2008. |
dc.identifier.uri.fl_str_mv |
http://tede2.pucrs.br/tede2/handle/tede/5028 |
identifier_str_mv |
PRIMO, Tiago Thompsen. Métodos de clusterização para apoio à classificação estética de documentos. 2008. 117 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2008. |
url |
http://tede2.pucrs.br/tede2/handle/tede/5028 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.program.fl_str_mv |
1974996533081274470 |
dc.relation.confidence.fl_str_mv |
500 600 |
dc.relation.department.fl_str_mv |
1946639708616176246 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação |
dc.publisher.initials.fl_str_mv |
PUCRS |
dc.publisher.country.fl_str_mv |
BR |
dc.publisher.department.fl_str_mv |
Faculdade de Informáca |
publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS |
instname_str |
Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
instacron_str |
PUC_RS |
institution |
PUC_RS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
collection |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
bitstream.url.fl_str_mv |
http://tede2.pucrs.br/tede2/bitstream/tede/5028/3/406128.pdf.jpg http://tede2.pucrs.br/tede2/bitstream/tede/5028/2/406128.pdf.txt http://tede2.pucrs.br/tede2/bitstream/tede/5028/1/406128.pdf |
bitstream.checksum.fl_str_mv |
d194002ab55ff080115418da222fe959 46cdfa0d34c01b11e39bb9acb96583b1 d4b22e3a871de544238db5630e9a295f |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
repository.mail.fl_str_mv |
biblioteca.central@pucrs.br|| |
_version_ |
1799765304767676416 |