Amostragem para grandes volumes de dados: uma aplicação em redes complexas

Detalhes bibliográficos
Autor(a) principal: Souza, Roberta Carneiro de
Data de Publicação: 2018
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFRJ
Texto Completo: http://hdl.handle.net/11422/11622
Resumo: Este trabalho tem como objetivo principal implementar e avaliar opções de planos amostrais de algoritmos para cálculo de centralidade de intermediação - uma medida utilizada para identificar vértices importantes e influentes - em redes complexas, visando melhorar a qualidade das estimativas. A avaliação estatística da qualidade dessas estimativas será feita através de indicadores propostos, já utilizados em amostragem mas não em mineração de dados em redes complexas. As t´técnicas utilizadas de forma combinada para atingir os objetivos e propor um novo algoritmo foram: amostragem, agrupamento (ou detecção de comunidades) e computação paralela. O recurso de amostragem vem sendo utilizado amplamente como ferramenta de redução de dimensionalidade em problemas de mineração de dados para agilizar processos e diminuir custos com armazenagem de dados. As t´técnicas de agrupamento para detecção de comunidades possuem alta correlação com a medida que se deseja estimar, a centralidade de intermediação. Um dos fatores considerados na escolha dos m´métodos empregados na implementação dos algoritmos foi a possibilidade de se utilizar computação paralela ou distribuída. Após revisão da literatura e avaliação dos resultados dos experimentos realizados, conclui-se que o algoritmo proposto pelo presente estudo contribui para o estado da arte da utilização de amostragem para estimar centralidade de intermediação em grandes redes complexas, um desafio no cenário atual de big data, ao agregar várias t´técnicas que otimizam a extração de conhecimento de dados. O algoritmo proposto, além de melhorar a qualidade das estimativas, apresentou redução no tempo de processamento mantendo a escalabilidade.
id UFRJ_ab7eea31c11fac2fb18d4c103f723a79
oai_identifier_str oai:pantheon.ufrj.br:11422/11622
network_acronym_str UFRJ
network_name_str Repositório Institucional da UFRJ
repository_id_str
spelling Souza, Roberta Carneiro dehttp://lattes.cnpq.br/5479016545300476Silva, Pedro Luis do NascimentoLima, Beatriz de Souza Leite Pires deGuimarães, SolangeEbecken, Nelson Francisco Favilla2020-03-26T01:13:07Z2023-11-30T03:03:52Z2018-06http://hdl.handle.net/11422/11622Este trabalho tem como objetivo principal implementar e avaliar opções de planos amostrais de algoritmos para cálculo de centralidade de intermediação - uma medida utilizada para identificar vértices importantes e influentes - em redes complexas, visando melhorar a qualidade das estimativas. A avaliação estatística da qualidade dessas estimativas será feita através de indicadores propostos, já utilizados em amostragem mas não em mineração de dados em redes complexas. As t´técnicas utilizadas de forma combinada para atingir os objetivos e propor um novo algoritmo foram: amostragem, agrupamento (ou detecção de comunidades) e computação paralela. O recurso de amostragem vem sendo utilizado amplamente como ferramenta de redução de dimensionalidade em problemas de mineração de dados para agilizar processos e diminuir custos com armazenagem de dados. As t´técnicas de agrupamento para detecção de comunidades possuem alta correlação com a medida que se deseja estimar, a centralidade de intermediação. Um dos fatores considerados na escolha dos m´métodos empregados na implementação dos algoritmos foi a possibilidade de se utilizar computação paralela ou distribuída. Após revisão da literatura e avaliação dos resultados dos experimentos realizados, conclui-se que o algoritmo proposto pelo presente estudo contribui para o estado da arte da utilização de amostragem para estimar centralidade de intermediação em grandes redes complexas, um desafio no cenário atual de big data, ao agregar várias t´técnicas que otimizam a extração de conhecimento de dados. O algoritmo proposto, além de melhorar a qualidade das estimativas, apresentou redução no tempo de processamento mantendo a escalabilidade.The main objective of this work is to implement and to evaluate options of sampling plans of algorithms for calculation of betweenness centrality, a measure used to identify important and influential vertices in complex networks aiming to improve the quality of the estimates. For statistical evaluation of variability of the estimates, indicators used in sampling, but not yet in data mining in complex networks, will be proposed. The techniques used in combination to reach the objectives and propose a new algorithm were: sampling, clustering (or community detection) and parallel computing. The sampling feature has been widely used as a tool to reduce dimensionality in data mining problems to streamline processes and reduce costs with data storage. The techniques of grouping for the detection of communities have a high correlation with the measure to be estimated, the betweenness centrality. One of the factors used in choosing the methods used in the implementation of the algorithms was the possibility of using parallel or distributed computing. After the review of the literature and evaluation of the results of the experiments carried out, it is concluded that the proposed algorithm contributes to the state of the art of the use of sampling to estimate betweenness centrality in large complex networks, a challenge in the current scenario of big data, by adding several techniques that optimize the extraction of data knowledge. The proposed algorithm, in addition to improving the quality of the estimates, presented a reduction in the processing time while keeping the scalability.Submitted by Christianne Fontes de Andrade (cfontes@ct.ufrj.br) on 2020-03-26T01:13:07Z No. of bitstreams: 1 886618.pdf: 458469 bytes, checksum: 92ba5bdde5ecbc74601d9b39604783c7 (MD5)Made available in DSpace on 2020-03-26T01:13:07Z (GMT). No. of bitstreams: 1 886618.pdf: 458469 bytes, checksum: 92ba5bdde5ecbc74601d9b39604783c7 (MD5) Previous issue date: 2018-06porUniversidade Federal do Rio de JaneiroPrograma de Pós-Graduação em Engenharia CivilUFRJBrasilInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de EngenhariaCNPQ::ENGENHARIAS::ENGENHARIA CIVILEngenharia civilAmostragemRedes complexasGrafosMineração de dadosCentralidade de intermediaçãoAgrupamentoAmostragem para grandes volumes de dados: uma aplicação em redes complexasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisabertoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJORIGINAL886618.pdf886618.pdfapplication/pdf458469http://pantheon.ufrj.br:80/bitstream/11422/11622/1/886618.pdf92ba5bdde5ecbc74601d9b39604783c7MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81853http://pantheon.ufrj.br:80/bitstream/11422/11622/2/license.txtdd32849f2bfb22da963c3aac6e26e255MD5211422/116222023-11-30 00:03:52.821oai:pantheon.ufrj.br:11422/11622TElDRU7Dh0EgTsODTy1FWENMVVNJVkEgREUgRElTVFJJQlVJw4fDg08KCkFvIGFzc2luYXIgZSBlbnRyZWdhciBlc3RhIGxpY2Vuw6dhLCB2b2PDqihzKSBvKHMpIGF1dG9yKGVzKSBvdSBwcm9wcmlldMOhcmlvKHMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBjb25jZWRlKG0pIGFvIFJlcG9zaXTDs3JpbyBQYW50aGVvbiBkYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gZGUgSmFuZWlybyAoVUZSSikgbyBkaXJlaXRvIG7Do28gLSBleGNsdXNpdm8gZGUgcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vKSBlbSB0b2RvIG8gbXVuZG8sIGVtIGZvcm1hdG8gZWxldHLDtG5pY28gZSBlbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8sIG1hcyBuw6NvIGxpbWl0YWRvIGEgw6F1ZGlvIGUvb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIGEgVUZSSiBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhZHV6aXIgYSBhcHJlc2VudGHDp8OjbyBkZSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gY29tIGEgZmluYWxpZGFkZSBkZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogdGFtYsOpbSBjb25jb3JkYSBxdWUgYSBVRlJKIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXNzYSBzdWJtaXNzw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8OjbyBkaWdpdGFsLgoKRGVjbGFyYSBxdWUgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgc2V1IHRyYWJhbGhvIG9yaWdpbmFsLCBlIHF1ZSB2b2PDqiB0ZW0gbyBkaXJlaXRvIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIGEgc3VhIGFwcmVzZW50YcOnw6NvLCBjb20gbyBtZWxob3IgZGUgc2V1cyBjb25oZWNpbWVudG9zLCBuw6NvIGluZnJpbmdpIGRpcmVpdG9zIGF1dG9yYWlzIGRlIHRlcmNlaXJvcy4KClNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCB2b2PDqiBuw6NvIHRlbSBkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBlIGNvbmNlZGUgYSBVRlJKIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRhIHN1Ym1pc3PDo28uCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIHF1ZSBmb2ksIG91IHRlbSBzaWRvIHBhdHJvY2luYWRvIG91IGFwb2lhZG8gcG9yIHVtYSBhZ8OqbmNpYSBvdSBvdXRybyhzKSBvcmdhbmlzbW8ocykgcXVlIG7Do28gYSBVRlJKLCB2b2PDqiBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWxxdWVyIGRpcmVpdG8gZGUgUkVWSVPDg08gb3UgZGUgb3V0cmFzIG9icmlnYcOnw7VlcyByZXF1ZXJpZGFzIHBvciBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUkogaXLDoSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8ocykgc2V1KHMpIG5vbWUocykgY29tbyBhdXRvcihlcykgb3UgcHJvcHJpZXTDoXJpbyhzKSBkYSBzdWJtaXNzw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZGFzIHBlcm1pdGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EsIG5vIGF0byBkZSBzdWJtaXNzw6NvLgo=Repositório de PublicaçõesPUBhttp://www.pantheon.ufrj.br/oai/requestopendoar:2023-11-30T03:03:52Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false
dc.title.pt_BR.fl_str_mv Amostragem para grandes volumes de dados: uma aplicação em redes complexas
title Amostragem para grandes volumes de dados: uma aplicação em redes complexas
spellingShingle Amostragem para grandes volumes de dados: uma aplicação em redes complexas
Souza, Roberta Carneiro de
CNPQ::ENGENHARIAS::ENGENHARIA CIVIL
Engenharia civil
Amostragem
Redes complexas
Grafos
Mineração de dados
Centralidade de intermediação
Agrupamento
title_short Amostragem para grandes volumes de dados: uma aplicação em redes complexas
title_full Amostragem para grandes volumes de dados: uma aplicação em redes complexas
title_fullStr Amostragem para grandes volumes de dados: uma aplicação em redes complexas
title_full_unstemmed Amostragem para grandes volumes de dados: uma aplicação em redes complexas
title_sort Amostragem para grandes volumes de dados: uma aplicação em redes complexas
author Souza, Roberta Carneiro de
author_facet Souza, Roberta Carneiro de
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/5479016545300476
dc.contributor.author.fl_str_mv Souza, Roberta Carneiro de
dc.contributor.referee1.fl_str_mv Silva, Pedro Luis do Nascimento
dc.contributor.referee2.fl_str_mv Lima, Beatriz de Souza Leite Pires de
dc.contributor.referee3.fl_str_mv Guimarães, Solange
dc.contributor.advisor1.fl_str_mv Ebecken, Nelson Francisco Favilla
contributor_str_mv Silva, Pedro Luis do Nascimento
Lima, Beatriz de Souza Leite Pires de
Guimarães, Solange
Ebecken, Nelson Francisco Favilla
dc.subject.cnpq.fl_str_mv CNPQ::ENGENHARIAS::ENGENHARIA CIVIL
topic CNPQ::ENGENHARIAS::ENGENHARIA CIVIL
Engenharia civil
Amostragem
Redes complexas
Grafos
Mineração de dados
Centralidade de intermediação
Agrupamento
dc.subject.por.fl_str_mv Engenharia civil
Amostragem
Redes complexas
Grafos
Mineração de dados
Centralidade de intermediação
Agrupamento
description Este trabalho tem como objetivo principal implementar e avaliar opções de planos amostrais de algoritmos para cálculo de centralidade de intermediação - uma medida utilizada para identificar vértices importantes e influentes - em redes complexas, visando melhorar a qualidade das estimativas. A avaliação estatística da qualidade dessas estimativas será feita através de indicadores propostos, já utilizados em amostragem mas não em mineração de dados em redes complexas. As t´técnicas utilizadas de forma combinada para atingir os objetivos e propor um novo algoritmo foram: amostragem, agrupamento (ou detecção de comunidades) e computação paralela. O recurso de amostragem vem sendo utilizado amplamente como ferramenta de redução de dimensionalidade em problemas de mineração de dados para agilizar processos e diminuir custos com armazenagem de dados. As t´técnicas de agrupamento para detecção de comunidades possuem alta correlação com a medida que se deseja estimar, a centralidade de intermediação. Um dos fatores considerados na escolha dos m´métodos empregados na implementação dos algoritmos foi a possibilidade de se utilizar computação paralela ou distribuída. Após revisão da literatura e avaliação dos resultados dos experimentos realizados, conclui-se que o algoritmo proposto pelo presente estudo contribui para o estado da arte da utilização de amostragem para estimar centralidade de intermediação em grandes redes complexas, um desafio no cenário atual de big data, ao agregar várias t´técnicas que otimizam a extração de conhecimento de dados. O algoritmo proposto, além de melhorar a qualidade das estimativas, apresentou redução no tempo de processamento mantendo a escalabilidade.
publishDate 2018
dc.date.issued.fl_str_mv 2018-06
dc.date.accessioned.fl_str_mv 2020-03-26T01:13:07Z
dc.date.available.fl_str_mv 2023-11-30T03:03:52Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11422/11622
url http://hdl.handle.net/11422/11622
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Engenharia Civil
dc.publisher.initials.fl_str_mv UFRJ
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRJ
instname:Universidade Federal do Rio de Janeiro (UFRJ)
instacron:UFRJ
instname_str Universidade Federal do Rio de Janeiro (UFRJ)
instacron_str UFRJ
institution UFRJ
reponame_str Repositório Institucional da UFRJ
collection Repositório Institucional da UFRJ
bitstream.url.fl_str_mv http://pantheon.ufrj.br:80/bitstream/11422/11622/1/886618.pdf
http://pantheon.ufrj.br:80/bitstream/11422/11622/2/license.txt
bitstream.checksum.fl_str_mv 92ba5bdde5ecbc74601d9b39604783c7
dd32849f2bfb22da963c3aac6e26e255
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)
repository.mail.fl_str_mv
_version_ 1784097178551058432