Uma arquitetura para análise de agrupamentos sobre bases de dados distribuídas

Detalhes bibliográficos
Autor(a) principal: Gorgônio, Flavius da Luz e
Data de Publicação: 2009
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFRN
Texto Completo: https://repositorio.ufrn.br/jspui/handle/123456789/28672
Resumo: Mineração de dados pode ser definida como um conjunto de técnicas para a extração de conhecimento e procura de padrões úteis e previamente desconhecidos em grandes volumes de dados multidimensionais. Algoritmos tradicionais de análise de agrupamento, como mapas auto-organizáveis e K-médias têm sido largamente utilizados como ferramentas de mineração de dados, com o objetivo de permitir a visualização de dados de elevada dimensionalidade, auxiliando na identificação de agrupamentos de dados com características semelhantes. No entanto, algoritmos tradicionais para análise de dados podem não ser eficientes para algumas aplicações atuais por não considerarem a existência de dados armazenados de forma distribuída. Assim, uma crescente tendência de minerar dados armazenados de forma distribuída tem motivado o surgimento de métodos que permitem analisar cada uma das bases de dados isoladamente e combinar os resultados parciais para obter um resultado final. Este trabalho apresenta uma arquitetura para análise de agrupamentos em bases de dados distribuídas, a partir da utilização de algoritmos tradicionais, que reduz sensivelmente a quantidade de dados transferidos entre as unidades remotas e a unidade central. A arquitetura é composta por uma estratégia, baseada em quantização vetorial, que possibilita extrair um conjunto de representantes a partir de partições horizontais e/ou verticais da base de dados, a fim de se obter visões parciais dos agrupamentos existentes em cada um dos conjuntos de dados locais. Posteriormente, os representantes de cada unidade local são enviados à unidade central, que efetua a combinação dos resultados parciais através de um processo de agrupamento sobre os representantes dos dados. Os resultados experimentais obtidos com a utilização da arquitetura proposta sobre diferentes conjuntos de dados demonstram que essa estratégia consegue obter resultados com mesma eficácia que os obtidos com as técnicas de mineração de dados convencionais, onde todas as bases de dados são transferidas para uma unidade central durante a etapa de pré-processamento.
id UFRN_b127c0d90c4ffe07fb6dc0776e677253
oai_identifier_str oai:https://repositorio.ufrn.br:123456789/28672
network_acronym_str UFRN
network_name_str Repositório Institucional da UFRN
repository_id_str
spelling Gorgônio, Flavius da Luz ehttp://lattes.cnpq.br/7375286161719016Martins, Allan de MedeirosCanuto, Anne Magaly de PaulaBarreto, Guilherme de AlencarAdeodato, Paulo Jorge LeitãoCosta, José Alfredo Ferreira2020-03-26T18:01:55Z2020-03-26T18:01:55Z2009-03-06GORGÔNIO, Flavius da Luz e. Uma arquitetura para análise de agrupamentos sobre bases de dados distribuídas. 2009. 156f. Tese (Doutorado em Engenharia Elétrica e Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2009.https://repositorio.ufrn.br/jspui/handle/123456789/28672Mineração de dados pode ser definida como um conjunto de técnicas para a extração de conhecimento e procura de padrões úteis e previamente desconhecidos em grandes volumes de dados multidimensionais. Algoritmos tradicionais de análise de agrupamento, como mapas auto-organizáveis e K-médias têm sido largamente utilizados como ferramentas de mineração de dados, com o objetivo de permitir a visualização de dados de elevada dimensionalidade, auxiliando na identificação de agrupamentos de dados com características semelhantes. No entanto, algoritmos tradicionais para análise de dados podem não ser eficientes para algumas aplicações atuais por não considerarem a existência de dados armazenados de forma distribuída. Assim, uma crescente tendência de minerar dados armazenados de forma distribuída tem motivado o surgimento de métodos que permitem analisar cada uma das bases de dados isoladamente e combinar os resultados parciais para obter um resultado final. Este trabalho apresenta uma arquitetura para análise de agrupamentos em bases de dados distribuídas, a partir da utilização de algoritmos tradicionais, que reduz sensivelmente a quantidade de dados transferidos entre as unidades remotas e a unidade central. A arquitetura é composta por uma estratégia, baseada em quantização vetorial, que possibilita extrair um conjunto de representantes a partir de partições horizontais e/ou verticais da base de dados, a fim de se obter visões parciais dos agrupamentos existentes em cada um dos conjuntos de dados locais. Posteriormente, os representantes de cada unidade local são enviados à unidade central, que efetua a combinação dos resultados parciais através de um processo de agrupamento sobre os representantes dos dados. Os resultados experimentais obtidos com a utilização da arquitetura proposta sobre diferentes conjuntos de dados demonstram que essa estratégia consegue obter resultados com mesma eficácia que os obtidos com as técnicas de mineração de dados convencionais, onde todas as bases de dados são transferidas para uma unidade central durante a etapa de pré-processamento.Data mining can be defined as a set of techniques for knowledge extraction and search of useful and previously unknown patterns in large multidimensional databases. Clustering is the process of discovering data clusters within high-dimensional databases, based on similarities, with a minimal knowledge of their structure. Distributed data clustering is a recent approach to deal with distributed databases, since traditional clustering algorithms require centering all databases in a single dataset. Moreover, current privacy requirements in distributed databases demand algorithms with the ability to process clustering securely. Thus, an increasing need of methods to mining data stored in a distributed way has motivated the development of algorithms to analyze each database separately and to combine the partial results to get a final result. This thesis presents a framework for cluster analysis in distributed databases using traditional algorithms, as K-means and self-organizing maps. This approach reduces significantly the amount of data transferred between remote units and the central unit. The framework includes a strategy, based on vectorial quantization, that extract a representatives subset, in order to get partial views of the existing clusters in each horizontal and/or vertical partitions of the database. Later, the representatives of each local unit are sent to the central unit, which carry out a combination of the partial results applying a clustering algorithm over all representative subsets. The experimental results with different datasets show that the framework proposed obtains results very close and with effectiveness comparable to conventional data mining techniques, where all the databases are transferred to a central unit in the pre-processing stage.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessCNPQ::ENGENHARIAS::ENGENHARIA ELETRICAAnálise de agrupamentos distribuídaComitês de agrupamentoK-médiasMapas auto-organizáveisUma arquitetura para análise de agrupamentos sobre bases de dados distribuídasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E COMPUTAÇÃOBrasilporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALArquiteturaanaliseagrupamentos_Gorgonio_2009.pdfArquiteturaanaliseagrupamentos_Gorgonio_2009.pdfapplication/pdf4901611https://repositorio.ufrn.br/bitstream/123456789/28672/1/Arquiteturaanaliseagrupamentos_Gorgonio_2009.pdfb97b4d920f887faf7adf833e66ec5200MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufrn.br/bitstream/123456789/28672/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81484https://repositorio.ufrn.br/bitstream/123456789/28672/3/license.txte9597aa2854d128fd968be5edc8a28d9MD53TEXTArquiteturaanaliseagrupamentos_Gorgonio_2009.pdf.txtArquiteturaanaliseagrupamentos_Gorgonio_2009.pdf.txtExtracted texttext/plain378773https://repositorio.ufrn.br/bitstream/123456789/28672/4/Arquiteturaanaliseagrupamentos_Gorgonio_2009.pdf.txta5f6d69524dfa38aa96998b8db17747eMD54THUMBNAILArquiteturaanaliseagrupamentos_Gorgonio_2009.pdf.jpgArquiteturaanaliseagrupamentos_Gorgonio_2009.pdf.jpgGenerated Thumbnailimage/jpeg1443https://repositorio.ufrn.br/bitstream/123456789/28672/5/Arquiteturaanaliseagrupamentos_Gorgonio_2009.pdf.jpga0525e3d5f8df699a14a1448861d973aMD55123456789/286722020-03-29 04:58:41.928oai:https://repositorio.ufrn.br:123456789/28672Tk9OLUVYQ0xVU0lWRSBESVNUUklCVVRJT04gTElDRU5TRQoKCkJ5IHNpZ25pbmcgYW5kIGRlbGl2ZXJpbmcgdGhpcyBsaWNlbnNlLCBNci4gKGF1dGhvciBvciBjb3B5cmlnaHQgaG9sZGVyKToKCgphKSBHcmFudHMgdGhlIFVuaXZlcnNpZGFkZSBGZWRlcmFsIFJpbyBHcmFuZGUgZG8gTm9ydGUgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgb2YKcmVwcm9kdWNlLCBjb252ZXJ0IChhcyBkZWZpbmVkIGJlbG93KSwgY29tbXVuaWNhdGUgYW5kIC8gb3IKZGlzdHJpYnV0ZSB0aGUgZGVsaXZlcmVkIGRvY3VtZW50IChpbmNsdWRpbmcgYWJzdHJhY3QgLyBhYnN0cmFjdCkgaW4KZGlnaXRhbCBvciBwcmludGVkIGZvcm1hdCBhbmQgaW4gYW55IG1lZGl1bS4KCmIpIERlY2xhcmVzIHRoYXQgdGhlIGRvY3VtZW50IHN1Ym1pdHRlZCBpcyBpdHMgb3JpZ2luYWwgd29yaywgYW5kIHRoYXQKeW91IGhhdmUgdGhlIHJpZ2h0IHRvIGdyYW50IHRoZSByaWdodHMgY29udGFpbmVkIGluIHRoaXMgbGljZW5zZS4gRGVjbGFyZXMKdGhhdCB0aGUgZGVsaXZlcnkgb2YgdGhlIGRvY3VtZW50IGRvZXMgbm90IGluZnJpbmdlLCBhcyBmYXIgYXMgaXQgaXMKdGhlIHJpZ2h0cyBvZiBhbnkgb3RoZXIgcGVyc29uIG9yIGVudGl0eS4KCmMpIElmIHRoZSBkb2N1bWVudCBkZWxpdmVyZWQgY29udGFpbnMgbWF0ZXJpYWwgd2hpY2ggZG9lcyBub3QKcmlnaHRzLCBkZWNsYXJlcyB0aGF0IGl0IGhhcyBvYnRhaW5lZCBhdXRob3JpemF0aW9uIGZyb20gdGhlIGhvbGRlciBvZiB0aGUKY29weXJpZ2h0IHRvIGdyYW50IHRoZSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gR3JhbmRlIGRvIE5vcnRlIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdCB0aGlzIG1hdGVyaWFsIHdob3NlIHJpZ2h0cyBhcmUgb2YKdGhpcmQgcGFydGllcyBpcyBjbGVhcmx5IGlkZW50aWZpZWQgYW5kIHJlY29nbml6ZWQgaW4gdGhlIHRleHQgb3IKY29udGVudCBvZiB0aGUgZG9jdW1lbnQgZGVsaXZlcmVkLgoKSWYgdGhlIGRvY3VtZW50IHN1Ym1pdHRlZCBpcyBiYXNlZCBvbiBmdW5kZWQgb3Igc3VwcG9ydGVkIHdvcmsKYnkgYW5vdGhlciBpbnN0aXR1dGlvbiBvdGhlciB0aGFuIHRoZSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gR3JhbmRlIGRvIE5vcnRlLCBkZWNsYXJlcyB0aGF0IGl0IGhhcyBmdWxmaWxsZWQgYW55IG9ibGlnYXRpb25zIHJlcXVpcmVkIGJ5IHRoZSByZXNwZWN0aXZlIGFncmVlbWVudCBvciBhZ3JlZW1lbnQuCgpUaGUgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZG8gUmlvIEdyYW5kZSBkbyBOb3J0ZSB3aWxsIGNsZWFybHkgaWRlbnRpZnkgaXRzIG5hbWUgKHMpIGFzIHRoZSBhdXRob3IgKHMpIG9yIGhvbGRlciAocykgb2YgdGhlIGRvY3VtZW50J3MgcmlnaHRzCmRlbGl2ZXJlZCwgYW5kIHdpbGwgbm90IG1ha2UgYW55IGNoYW5nZXMsIG90aGVyIHRoYW4gdGhvc2UgcGVybWl0dGVkIGJ5CnRoaXMgbGljZW5zZQo=Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2020-03-29T07:58:41Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.pt_BR.fl_str_mv Uma arquitetura para análise de agrupamentos sobre bases de dados distribuídas
title Uma arquitetura para análise de agrupamentos sobre bases de dados distribuídas
spellingShingle Uma arquitetura para análise de agrupamentos sobre bases de dados distribuídas
Gorgônio, Flavius da Luz e
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Análise de agrupamentos distribuída
Comitês de agrupamento
K-médias
Mapas auto-organizáveis
title_short Uma arquitetura para análise de agrupamentos sobre bases de dados distribuídas
title_full Uma arquitetura para análise de agrupamentos sobre bases de dados distribuídas
title_fullStr Uma arquitetura para análise de agrupamentos sobre bases de dados distribuídas
title_full_unstemmed Uma arquitetura para análise de agrupamentos sobre bases de dados distribuídas
title_sort Uma arquitetura para análise de agrupamentos sobre bases de dados distribuídas
author Gorgônio, Flavius da Luz e
author_facet Gorgônio, Flavius da Luz e
author_role author
dc.contributor.authorID.pt_BR.fl_str_mv
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/7375286161719016
dc.contributor.advisorID.pt_BR.fl_str_mv
dc.contributor.referees1.none.fl_str_mv Martins, Allan de Medeiros
dc.contributor.referees1ID.pt_BR.fl_str_mv
dc.contributor.referees2.none.fl_str_mv Canuto, Anne Magaly de Paula
dc.contributor.referees2ID.pt_BR.fl_str_mv
dc.contributor.referees3.none.fl_str_mv Barreto, Guilherme de Alencar
dc.contributor.referees3ID.pt_BR.fl_str_mv
dc.contributor.referees4.none.fl_str_mv Adeodato, Paulo Jorge Leitão
dc.contributor.referees4ID.pt_BR.fl_str_mv
dc.contributor.author.fl_str_mv Gorgônio, Flavius da Luz e
dc.contributor.advisor1.fl_str_mv Costa, José Alfredo Ferreira
contributor_str_mv Costa, José Alfredo Ferreira
dc.subject.cnpq.fl_str_mv CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
topic CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Análise de agrupamentos distribuída
Comitês de agrupamento
K-médias
Mapas auto-organizáveis
dc.subject.por.fl_str_mv Análise de agrupamentos distribuída
Comitês de agrupamento
K-médias
Mapas auto-organizáveis
description Mineração de dados pode ser definida como um conjunto de técnicas para a extração de conhecimento e procura de padrões úteis e previamente desconhecidos em grandes volumes de dados multidimensionais. Algoritmos tradicionais de análise de agrupamento, como mapas auto-organizáveis e K-médias têm sido largamente utilizados como ferramentas de mineração de dados, com o objetivo de permitir a visualização de dados de elevada dimensionalidade, auxiliando na identificação de agrupamentos de dados com características semelhantes. No entanto, algoritmos tradicionais para análise de dados podem não ser eficientes para algumas aplicações atuais por não considerarem a existência de dados armazenados de forma distribuída. Assim, uma crescente tendência de minerar dados armazenados de forma distribuída tem motivado o surgimento de métodos que permitem analisar cada uma das bases de dados isoladamente e combinar os resultados parciais para obter um resultado final. Este trabalho apresenta uma arquitetura para análise de agrupamentos em bases de dados distribuídas, a partir da utilização de algoritmos tradicionais, que reduz sensivelmente a quantidade de dados transferidos entre as unidades remotas e a unidade central. A arquitetura é composta por uma estratégia, baseada em quantização vetorial, que possibilita extrair um conjunto de representantes a partir de partições horizontais e/ou verticais da base de dados, a fim de se obter visões parciais dos agrupamentos existentes em cada um dos conjuntos de dados locais. Posteriormente, os representantes de cada unidade local são enviados à unidade central, que efetua a combinação dos resultados parciais através de um processo de agrupamento sobre os representantes dos dados. Os resultados experimentais obtidos com a utilização da arquitetura proposta sobre diferentes conjuntos de dados demonstram que essa estratégia consegue obter resultados com mesma eficácia que os obtidos com as técnicas de mineração de dados convencionais, onde todas as bases de dados são transferidas para uma unidade central durante a etapa de pré-processamento.
publishDate 2009
dc.date.issued.fl_str_mv 2009-03-06
dc.date.accessioned.fl_str_mv 2020-03-26T18:01:55Z
dc.date.available.fl_str_mv 2020-03-26T18:01:55Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv GORGÔNIO, Flavius da Luz e. Uma arquitetura para análise de agrupamentos sobre bases de dados distribuídas. 2009. 156f. Tese (Doutorado em Engenharia Elétrica e Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2009.
dc.identifier.uri.fl_str_mv https://repositorio.ufrn.br/jspui/handle/123456789/28672
identifier_str_mv GORGÔNIO, Flavius da Luz e. Uma arquitetura para análise de agrupamentos sobre bases de dados distribuídas. 2009. 156f. Tese (Doutorado em Engenharia Elétrica e Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2009.
url https://repositorio.ufrn.br/jspui/handle/123456789/28672
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.program.fl_str_mv PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E COMPUTAÇÃO
dc.publisher.country.fl_str_mv Brasil
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRN
instname:Universidade Federal do Rio Grande do Norte (UFRN)
instacron:UFRN
instname_str Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str UFRN
institution UFRN
reponame_str Repositório Institucional da UFRN
collection Repositório Institucional da UFRN
bitstream.url.fl_str_mv https://repositorio.ufrn.br/bitstream/123456789/28672/1/Arquiteturaanaliseagrupamentos_Gorgonio_2009.pdf
https://repositorio.ufrn.br/bitstream/123456789/28672/2/license_rdf
https://repositorio.ufrn.br/bitstream/123456789/28672/3/license.txt
https://repositorio.ufrn.br/bitstream/123456789/28672/4/Arquiteturaanaliseagrupamentos_Gorgonio_2009.pdf.txt
https://repositorio.ufrn.br/bitstream/123456789/28672/5/Arquiteturaanaliseagrupamentos_Gorgonio_2009.pdf.jpg
bitstream.checksum.fl_str_mv b97b4d920f887faf7adf833e66ec5200
e39d27027a6cc9cb039ad269a5db8e34
e9597aa2854d128fd968be5edc8a28d9
a5f6d69524dfa38aa96998b8db17747e
a0525e3d5f8df699a14a1448861d973a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_ 1814832760037048320