Modelos da física estatística para agrupamento não supervisionado de dados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2004 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPE |
dARK ID: | ark:/64986/0013000014jtw |
Texto Completo: | https://repositorio.ufpe.br/handle/123456789/6823 |
Resumo: | Nesta dissertação, o problema do agrupamento não-supervisionado de dados ou padrões é investigado, com enfoque em dois recentes métodos fundamentados na Física Estatística. Basicamente, estes métodos associam os elementos do banco de dados aos elementos de um sistema físico, os quais se acoplam através de uma interação de alcance finito. O critério de similaridade entre os dados, necessário para a formação dos agrupamentos, está associado a uma grandeza física do sistema. O primeiro método, chamado agrupamento super-paramagnético, associa cada padrão (matematicamente definido como um ponto no espaço de atributos D-dimensional) a uma variável de spin do modelo de Potts ferromagnético não homogêneo. Neste caso, dois pontos pertencem ao mesmo cluster quando a correlação spin-spin, no equilíbrio termodinâmico a uma temperatura T, está acima de um certo limiar. No segundo método, o conjunto de dados é associado a um sistema de mapas caóticos acoplados e as classificações emergem da sincronia destes mapas. A fundamentação teórica e as implementações computacionais destes dois métodos são apresentadas e comparativamente discutidas. Os métodos são aplicados a três conjuntos de dados sintéticos que, por razões de visualização, são formados por padrões de pontos em um espaço bidimensional limitado. Os padrões são especificamente escolhidos para testar e comparar as potencialidades dos métodos empregados. O agrupamento superparamagnético, por estar fundamentado em um sistema de spins ferromagnético, mostra-se mais robusto com a relação aos ruídos de fundo ou background, evitando a agregação aos clusters de possíveis "trilhas"(de caráter unidimensional) que se formam no background. Em decorrência, o agrupamento super-paramagnético identifica os clusters através de suas densidades e correlações locais com maior precisão, sendo apropriado para identificar e delimitar formas mais compactas eliminando ruídos de fundo nas fronteiras. Por outro lado, o método por associação a mapas caóticos possui maior sensibilidade para identificar estruturas com caráter unidimensional subjacentes aos ruídos de fundo, por conta das conexões locais terem grande influência na transmissão das correlações, sendo, portanto mais eficiente na classificação de clusters com estruturas mais complexas. Computacionalmente, o agrupamento através de mapas caóticos mostrou-se ser é 265 vezes mais rápido que o agrupamento super-paramagnético quando aplicado aos conjuntos de dados aqui selecionados, tendo em vista que o último carece de realizar simulações numéricas através do método Monte Carlo estabilizando termicamente o sistema para cada valor de temperatura considerado |
id |
UFPE_b748384f4d0d7b972da80fbaae2e776f |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/6823 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
2221 |
spelling |
SILVA, Rogério Mendes daCOUTINHO, Sergio Galvao2014-06-12T18:07:40Z2014-06-12T18:07:40Z2004Mendes da Silva, Rogério; Galvao Coutinho, Sergio. Modelos da física estatística para agrupamento não supervisionado de dados. 2004. Dissertação (Mestrado). Programa de Pós-Graduação em Física, Universidade Federal de Pernambuco, Recife, 2004.https://repositorio.ufpe.br/handle/123456789/6823ark:/64986/0013000014jtwNesta dissertação, o problema do agrupamento não-supervisionado de dados ou padrões é investigado, com enfoque em dois recentes métodos fundamentados na Física Estatística. Basicamente, estes métodos associam os elementos do banco de dados aos elementos de um sistema físico, os quais se acoplam através de uma interação de alcance finito. O critério de similaridade entre os dados, necessário para a formação dos agrupamentos, está associado a uma grandeza física do sistema. O primeiro método, chamado agrupamento super-paramagnético, associa cada padrão (matematicamente definido como um ponto no espaço de atributos D-dimensional) a uma variável de spin do modelo de Potts ferromagnético não homogêneo. Neste caso, dois pontos pertencem ao mesmo cluster quando a correlação spin-spin, no equilíbrio termodinâmico a uma temperatura T, está acima de um certo limiar. No segundo método, o conjunto de dados é associado a um sistema de mapas caóticos acoplados e as classificações emergem da sincronia destes mapas. A fundamentação teórica e as implementações computacionais destes dois métodos são apresentadas e comparativamente discutidas. Os métodos são aplicados a três conjuntos de dados sintéticos que, por razões de visualização, são formados por padrões de pontos em um espaço bidimensional limitado. Os padrões são especificamente escolhidos para testar e comparar as potencialidades dos métodos empregados. O agrupamento superparamagnético, por estar fundamentado em um sistema de spins ferromagnético, mostra-se mais robusto com a relação aos ruídos de fundo ou background, evitando a agregação aos clusters de possíveis "trilhas"(de caráter unidimensional) que se formam no background. Em decorrência, o agrupamento super-paramagnético identifica os clusters através de suas densidades e correlações locais com maior precisão, sendo apropriado para identificar e delimitar formas mais compactas eliminando ruídos de fundo nas fronteiras. Por outro lado, o método por associação a mapas caóticos possui maior sensibilidade para identificar estruturas com caráter unidimensional subjacentes aos ruídos de fundo, por conta das conexões locais terem grande influência na transmissão das correlações, sendo, portanto mais eficiente na classificação de clusters com estruturas mais complexas. Computacionalmente, o agrupamento através de mapas caóticos mostrou-se ser é 265 vezes mais rápido que o agrupamento super-paramagnético quando aplicado aos conjuntos de dados aqui selecionados, tendo em vista que o último carece de realizar simulações numéricas através do método Monte Carlo estabilizando termicamente o sistema para cada valor de temperatura consideradoConselho Nacional de Desenvolvimento Científico e TecnológicoporUniversidade Federal de PernambucoAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessFísica estatísticaDados - agrupamento não supervisionadoModelos da física estatística para agrupamento não supervisionado de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILarquivo7899_1.pdf.jpgarquivo7899_1.pdf.jpgGenerated Thumbnailimage/jpeg1526https://repositorio.ufpe.br/bitstream/123456789/6823/4/arquivo7899_1.pdf.jpg35f3a6144fe18f89bc50025c79f410c8MD54ORIGINALarquivo7899_1.pdfapplication/pdf4375505https://repositorio.ufpe.br/bitstream/123456789/6823/1/arquivo7899_1.pdf717a9b9193f8e4b0cb086b64f2055308MD51LICENSElicense.txttext/plain1748https://repositorio.ufpe.br/bitstream/123456789/6823/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52TEXTarquivo7899_1.pdf.txtarquivo7899_1.pdf.txtExtracted texttext/plain136100https://repositorio.ufpe.br/bitstream/123456789/6823/3/arquivo7899_1.pdf.txt6667367eae4d55d29237a2733862562fMD53123456789/68232019-10-25 12:09:24.056oai:repositorio.ufpe.br:123456789/6823Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T15:09:24Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
Modelos da física estatística para agrupamento não supervisionado de dados |
title |
Modelos da física estatística para agrupamento não supervisionado de dados |
spellingShingle |
Modelos da física estatística para agrupamento não supervisionado de dados SILVA, Rogério Mendes da Física estatística Dados - agrupamento não supervisionado |
title_short |
Modelos da física estatística para agrupamento não supervisionado de dados |
title_full |
Modelos da física estatística para agrupamento não supervisionado de dados |
title_fullStr |
Modelos da física estatística para agrupamento não supervisionado de dados |
title_full_unstemmed |
Modelos da física estatística para agrupamento não supervisionado de dados |
title_sort |
Modelos da física estatística para agrupamento não supervisionado de dados |
author |
SILVA, Rogério Mendes da |
author_facet |
SILVA, Rogério Mendes da |
author_role |
author |
dc.contributor.author.fl_str_mv |
SILVA, Rogério Mendes da |
dc.contributor.advisor1.fl_str_mv |
COUTINHO, Sergio Galvao |
contributor_str_mv |
COUTINHO, Sergio Galvao |
dc.subject.por.fl_str_mv |
Física estatística Dados - agrupamento não supervisionado |
topic |
Física estatística Dados - agrupamento não supervisionado |
description |
Nesta dissertação, o problema do agrupamento não-supervisionado de dados ou padrões é investigado, com enfoque em dois recentes métodos fundamentados na Física Estatística. Basicamente, estes métodos associam os elementos do banco de dados aos elementos de um sistema físico, os quais se acoplam através de uma interação de alcance finito. O critério de similaridade entre os dados, necessário para a formação dos agrupamentos, está associado a uma grandeza física do sistema. O primeiro método, chamado agrupamento super-paramagnético, associa cada padrão (matematicamente definido como um ponto no espaço de atributos D-dimensional) a uma variável de spin do modelo de Potts ferromagnético não homogêneo. Neste caso, dois pontos pertencem ao mesmo cluster quando a correlação spin-spin, no equilíbrio termodinâmico a uma temperatura T, está acima de um certo limiar. No segundo método, o conjunto de dados é associado a um sistema de mapas caóticos acoplados e as classificações emergem da sincronia destes mapas. A fundamentação teórica e as implementações computacionais destes dois métodos são apresentadas e comparativamente discutidas. Os métodos são aplicados a três conjuntos de dados sintéticos que, por razões de visualização, são formados por padrões de pontos em um espaço bidimensional limitado. Os padrões são especificamente escolhidos para testar e comparar as potencialidades dos métodos empregados. O agrupamento superparamagnético, por estar fundamentado em um sistema de spins ferromagnético, mostra-se mais robusto com a relação aos ruídos de fundo ou background, evitando a agregação aos clusters de possíveis "trilhas"(de caráter unidimensional) que se formam no background. Em decorrência, o agrupamento super-paramagnético identifica os clusters através de suas densidades e correlações locais com maior precisão, sendo apropriado para identificar e delimitar formas mais compactas eliminando ruídos de fundo nas fronteiras. Por outro lado, o método por associação a mapas caóticos possui maior sensibilidade para identificar estruturas com caráter unidimensional subjacentes aos ruídos de fundo, por conta das conexões locais terem grande influência na transmissão das correlações, sendo, portanto mais eficiente na classificação de clusters com estruturas mais complexas. Computacionalmente, o agrupamento através de mapas caóticos mostrou-se ser é 265 vezes mais rápido que o agrupamento super-paramagnético quando aplicado aos conjuntos de dados aqui selecionados, tendo em vista que o último carece de realizar simulações numéricas através do método Monte Carlo estabilizando termicamente o sistema para cada valor de temperatura considerado |
publishDate |
2004 |
dc.date.issued.fl_str_mv |
2004 |
dc.date.accessioned.fl_str_mv |
2014-06-12T18:07:40Z |
dc.date.available.fl_str_mv |
2014-06-12T18:07:40Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
Mendes da Silva, Rogério; Galvao Coutinho, Sergio. Modelos da física estatística para agrupamento não supervisionado de dados. 2004. Dissertação (Mestrado). Programa de Pós-Graduação em Física, Universidade Federal de Pernambuco, Recife, 2004. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/6823 |
dc.identifier.dark.fl_str_mv |
ark:/64986/0013000014jtw |
identifier_str_mv |
Mendes da Silva, Rogério; Galvao Coutinho, Sergio. Modelos da física estatística para agrupamento não supervisionado de dados. 2004. Dissertação (Mestrado). Programa de Pós-Graduação em Física, Universidade Federal de Pernambuco, Recife, 2004. ark:/64986/0013000014jtw |
url |
https://repositorio.ufpe.br/handle/123456789/6823 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/6823/4/arquivo7899_1.pdf.jpg https://repositorio.ufpe.br/bitstream/123456789/6823/1/arquivo7899_1.pdf https://repositorio.ufpe.br/bitstream/123456789/6823/2/license.txt https://repositorio.ufpe.br/bitstream/123456789/6823/3/arquivo7899_1.pdf.txt |
bitstream.checksum.fl_str_mv |
35f3a6144fe18f89bc50025c79f410c8 717a9b9193f8e4b0cb086b64f2055308 8a4605be74aa9ea9d79846c1fba20a33 6667367eae4d55d29237a2733862562f |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1815173001405005824 |