Seleção local de características em agrupamento hierárquico de documentos

Detalhes bibliográficos
Autor(a) principal: RIBEIRO, Marcelo Nunes
Data de Publicação: 2009
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPE
Texto Completo: https://repositorio.ufpe.br/handle/123456789/1948
Resumo: O agrupamento hierárquico de documentos é utilizado para prover interface de navegação em coleções de documentos, ajudando na atividade de recuperação de informação. Como os vetores que representam os documentos possuem uma alta dimensionalidade, a presença de termos irrelevantes confunde o algoritmo de agrupamento. O uso da seleção de características em agrupamento de documentos é capaz de melhorar a precisão e o tempo de execução do agrupamento. Esta dissertação discute vários métodos de seleção de características já aplicados e aborda a forma como a seleção de características interage com o algoritmo de agrupamento, que pode ser classificada de forma global, quando um único subconjunto de características é considerado, ou local, quando cada grupo é descrito por subconjuntos de características distintas. Por conta da diversidade de visões das características proporcionada pela seleção local, o algoritmo de agrupamento é capaz de revelar grupos ocultos nos dados. Nesta dissertação, é aplicado o mesmo princípio de seleção local para o caso de agrupamento hierárquico divisivo de documentos, com a realização de uma nova seleção de características a cada passo de divisão dos grupos. Este método foi batizado de ZOOM-IN. Foram feitos experimentos com as bases de documentos Reuters-21578 e RCV2 e foi comprovado um ganho de precisão no resultado do agrupamento quando a heurística de escolha do número de termos do método ZOOM-IN é capaz de eliminar os termos irrelevantes. Também é desenvolvida uma aplicação dos métodos discutidos para agrupar documentos do resultado de uma consulta ao Google, com etiquetagem e escolha do número de grupos usando amostragem e o conceito de estabilidade do agrupamento. Os resultados mostraram que a execução do algoritmo com diferentes parâmetros é capaz de descobrir diferentes grupos interessantes, o que motiva a pesquisa de uma interface de acesso aos documentos que combine os resultados de diferentes execuções dos algoritmos. Por fim, são apresentadas vantagens e limitações do uso do método ZOOM-IN, além de indicações de trabalhos futuros
id UFPE_34031d2df038d7b36e72d146406dbc4d
oai_identifier_str oai:repositorio.ufpe.br:123456789/1948
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling RIBEIRO, Marcelo NunesPRUDÊNCIO, Ricardo Bastos Cavalcante2014-06-12T15:53:25Z2014-06-12T15:53:25Z2009-01-31Nunes Ribeiro, Marcelo; Bastos Cavalcante Prudêncio, Ricardo. Seleção local de características em agrupamento hierárquico de documentos. 2009. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2009.https://repositorio.ufpe.br/handle/123456789/1948O agrupamento hierárquico de documentos é utilizado para prover interface de navegação em coleções de documentos, ajudando na atividade de recuperação de informação. Como os vetores que representam os documentos possuem uma alta dimensionalidade, a presença de termos irrelevantes confunde o algoritmo de agrupamento. O uso da seleção de características em agrupamento de documentos é capaz de melhorar a precisão e o tempo de execução do agrupamento. Esta dissertação discute vários métodos de seleção de características já aplicados e aborda a forma como a seleção de características interage com o algoritmo de agrupamento, que pode ser classificada de forma global, quando um único subconjunto de características é considerado, ou local, quando cada grupo é descrito por subconjuntos de características distintas. Por conta da diversidade de visões das características proporcionada pela seleção local, o algoritmo de agrupamento é capaz de revelar grupos ocultos nos dados. Nesta dissertação, é aplicado o mesmo princípio de seleção local para o caso de agrupamento hierárquico divisivo de documentos, com a realização de uma nova seleção de características a cada passo de divisão dos grupos. Este método foi batizado de ZOOM-IN. Foram feitos experimentos com as bases de documentos Reuters-21578 e RCV2 e foi comprovado um ganho de precisão no resultado do agrupamento quando a heurística de escolha do número de termos do método ZOOM-IN é capaz de eliminar os termos irrelevantes. Também é desenvolvida uma aplicação dos métodos discutidos para agrupar documentos do resultado de uma consulta ao Google, com etiquetagem e escolha do número de grupos usando amostragem e o conceito de estabilidade do agrupamento. Os resultados mostraram que a execução do algoritmo com diferentes parâmetros é capaz de descobrir diferentes grupos interessantes, o que motiva a pesquisa de uma interface de acesso aos documentos que combine os resultados de diferentes execuções dos algoritmos. Por fim, são apresentadas vantagens e limitações do uso do método ZOOM-IN, além de indicações de trabalhos futurosConselho Nacional de Desenvolvimento Científico e TecnológicoporUniversidade Federal de PernambucoAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessAgrupamento de documentosseleção de característicasSeleção local de características em agrupamento hierárquico de documentosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILarquivo1911_1.pdf.jpgarquivo1911_1.pdf.jpgGenerated Thumbnailimage/jpeg1350https://repositorio.ufpe.br/bitstream/123456789/1948/4/arquivo1911_1.pdf.jpgf8a43190544fcbe6ad515edc81da8edaMD54ORIGINALarquivo1911_1.pdfapplication/pdf1714905https://repositorio.ufpe.br/bitstream/123456789/1948/1/arquivo1911_1.pdfbeb3cb826b1a4fcfa50d90b854a019d0MD51LICENSElicense.txttext/plain1748https://repositorio.ufpe.br/bitstream/123456789/1948/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52TEXTarquivo1911_1.pdf.txtarquivo1911_1.pdf.txtExtracted texttext/plain135106https://repositorio.ufpe.br/bitstream/123456789/1948/3/arquivo1911_1.pdf.txt6bbc18b2ff84391198497ce8f5bec5caMD53123456789/19482019-10-25 04:17:05.109oai:repositorio.ufpe.br:123456789/1948Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T07:17:05Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Seleção local de características em agrupamento hierárquico de documentos
title Seleção local de características em agrupamento hierárquico de documentos
spellingShingle Seleção local de características em agrupamento hierárquico de documentos
RIBEIRO, Marcelo Nunes
Agrupamento de documentos
seleção de características
title_short Seleção local de características em agrupamento hierárquico de documentos
title_full Seleção local de características em agrupamento hierárquico de documentos
title_fullStr Seleção local de características em agrupamento hierárquico de documentos
title_full_unstemmed Seleção local de características em agrupamento hierárquico de documentos
title_sort Seleção local de características em agrupamento hierárquico de documentos
author RIBEIRO, Marcelo Nunes
author_facet RIBEIRO, Marcelo Nunes
author_role author
dc.contributor.author.fl_str_mv RIBEIRO, Marcelo Nunes
dc.contributor.advisor1.fl_str_mv PRUDÊNCIO, Ricardo Bastos Cavalcante
contributor_str_mv PRUDÊNCIO, Ricardo Bastos Cavalcante
dc.subject.por.fl_str_mv Agrupamento de documentos
seleção de características
topic Agrupamento de documentos
seleção de características
description O agrupamento hierárquico de documentos é utilizado para prover interface de navegação em coleções de documentos, ajudando na atividade de recuperação de informação. Como os vetores que representam os documentos possuem uma alta dimensionalidade, a presença de termos irrelevantes confunde o algoritmo de agrupamento. O uso da seleção de características em agrupamento de documentos é capaz de melhorar a precisão e o tempo de execução do agrupamento. Esta dissertação discute vários métodos de seleção de características já aplicados e aborda a forma como a seleção de características interage com o algoritmo de agrupamento, que pode ser classificada de forma global, quando um único subconjunto de características é considerado, ou local, quando cada grupo é descrito por subconjuntos de características distintas. Por conta da diversidade de visões das características proporcionada pela seleção local, o algoritmo de agrupamento é capaz de revelar grupos ocultos nos dados. Nesta dissertação, é aplicado o mesmo princípio de seleção local para o caso de agrupamento hierárquico divisivo de documentos, com a realização de uma nova seleção de características a cada passo de divisão dos grupos. Este método foi batizado de ZOOM-IN. Foram feitos experimentos com as bases de documentos Reuters-21578 e RCV2 e foi comprovado um ganho de precisão no resultado do agrupamento quando a heurística de escolha do número de termos do método ZOOM-IN é capaz de eliminar os termos irrelevantes. Também é desenvolvida uma aplicação dos métodos discutidos para agrupar documentos do resultado de uma consulta ao Google, com etiquetagem e escolha do número de grupos usando amostragem e o conceito de estabilidade do agrupamento. Os resultados mostraram que a execução do algoritmo com diferentes parâmetros é capaz de descobrir diferentes grupos interessantes, o que motiva a pesquisa de uma interface de acesso aos documentos que combine os resultados de diferentes execuções dos algoritmos. Por fim, são apresentadas vantagens e limitações do uso do método ZOOM-IN, além de indicações de trabalhos futuros
publishDate 2009
dc.date.issued.fl_str_mv 2009-01-31
dc.date.accessioned.fl_str_mv 2014-06-12T15:53:25Z
dc.date.available.fl_str_mv 2014-06-12T15:53:25Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv Nunes Ribeiro, Marcelo; Bastos Cavalcante Prudêncio, Ricardo. Seleção local de características em agrupamento hierárquico de documentos. 2009. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2009.
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/1948
identifier_str_mv Nunes Ribeiro, Marcelo; Bastos Cavalcante Prudêncio, Ricardo. Seleção local de características em agrupamento hierárquico de documentos. 2009. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2009.
url https://repositorio.ufpe.br/handle/123456789/1948
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/1948/4/arquivo1911_1.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/1948/1/arquivo1911_1.pdf
https://repositorio.ufpe.br/bitstream/123456789/1948/2/license.txt
https://repositorio.ufpe.br/bitstream/123456789/1948/3/arquivo1911_1.pdf.txt
bitstream.checksum.fl_str_mv f8a43190544fcbe6ad515edc81da8eda
beb3cb826b1a4fcfa50d90b854a019d0
8a4605be74aa9ea9d79846c1fba20a33
6bbc18b2ff84391198497ce8f5bec5ca
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1802310650238599168