Estimation of distribution algorithms for clustering and classification

Cagnini, Henry Emanuel Leal

Estimation of distribution algorithms for clustering and classification

Detalhes bibliográficos
Autor(a) principal:	Cagnini, Henry Emanuel Leal
Data de Publicação:	2017
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Biblioteca Digital de Teses e Dissertações da PUC_RS
Texto Completo:	http://tede2.pucrs.br/tede2/handle/tede/7384
Resumo:	Extrair informações relevantes a partir de dados não é uma tarefa fácil. Tais dados podem vir a partir de lotes ou em fluxos contínuos, podem ser completos ou possuir partes faltantes, podem ser duplicados, e também podem ser ruidosos. Ademais, existem diversos algoritmos que realizam tarefas de mineração de dados e, segundo o teorema do "Almoço Grátis", não existe apenas um algoritmo que venha a solucionar satisfatoriamente todos os possíveis problemas. Como um obstáculo final, algoritmos geralmente necessitam que hiper-parâmetros sejam definidos, o que não surpreendentemente demanda um mínimo de conhecimento sobre o domínio da aplicação para que tais parâmetros sejam corretamente definidos. Já que vários algoritmos tradicionais empregam estratégias de busca local gulosas, realizar um ajuste fino sobre estes hiper-parâmetros se torna uma etapa crucial a fim de obter modelos preditivos de qualidade superior. Por outro lado, Algoritmos de Estimativa de Distribuição realizam uma busca global, geralmente mais eficiente que realizar uma buscam exaustiva sobre todas as possíveis soluções para um determinado problema. Valendo-se de uma função de aptidão, algoritmos de estimativa de distribuição irão iterativamente procurar por melhores soluções durante seu processo evolutivo. Baseado nos benefícios que o emprego de algoritmos de estimativa de distribuição podem oferecer para as tarefas de agrupamento e indução de árvores de decisão, duas tarefas de mineração de dados consideradas NP-difícil e NP-difícil/completo respectivamente, este trabalho visa desenvolver novos algoritmos de estimativa de distribuição a fim de obter melhores resultados em relação a métodos tradicionais que empregam estratégias de busca local gulosas, e também sobre outros algoritmos evolutivos.

Metadados do item

id	P_RS_04d387033b83137ab2035b36781b1853
oai_identifier_str	oai:tede2.pucrs.br:tede/7384
network_acronym_str	P_RS
network_name_str	Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling	Barros, Rodrigo Coelho008.272.080-06http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4526709Y3835.002.940-49http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4404415Y4Cagnini, Henry Emanuel Leal2017-06-29T11:51:00Z2017-03-20http://tede2.pucrs.br/tede2/handle/tede/7384Extrair informações relevantes a partir de dados não é uma tarefa fácil. Tais dados podem vir a partir de lotes ou em fluxos contínuos, podem ser completos ou possuir partes faltantes, podem ser duplicados, e também podem ser ruidosos. Ademais, existem diversos algoritmos que realizam tarefas de mineração de dados e, segundo o teorema do "Almoço Grátis", não existe apenas um algoritmo que venha a solucionar satisfatoriamente todos os possíveis problemas. Como um obstáculo final, algoritmos geralmente necessitam que hiper-parâmetros sejam definidos, o que não surpreendentemente demanda um mínimo de conhecimento sobre o domínio da aplicação para que tais parâmetros sejam corretamente definidos. Já que vários algoritmos tradicionais empregam estratégias de busca local gulosas, realizar um ajuste fino sobre estes hiper-parâmetros se torna uma etapa crucial a fim de obter modelos preditivos de qualidade superior. Por outro lado, Algoritmos de Estimativa de Distribuição realizam uma busca global, geralmente mais eficiente que realizar uma buscam exaustiva sobre todas as possíveis soluções para um determinado problema. Valendo-se de uma função de aptidão, algoritmos de estimativa de distribuição irão iterativamente procurar por melhores soluções durante seu processo evolutivo. Baseado nos benefícios que o emprego de algoritmos de estimativa de distribuição podem oferecer para as tarefas de agrupamento e indução de árvores de decisão, duas tarefas de mineração de dados consideradas NP-difícil e NP-difícil/completo respectivamente, este trabalho visa desenvolver novos algoritmos de estimativa de distribuição a fim de obter melhores resultados em relação a métodos tradicionais que empregam estratégias de busca local gulosas, e também sobre outros algoritmos evolutivos.Extracting meaningful information from data is not an easy task. Data can come in batches or through a continuous stream, and can be incomplete or complete, duplicated, or noisy. Moreover, there are several algorithms to perform data mining tasks, and the no-free lunch theorem states that there is not a single best algorithm for all problems. As a final obstacle, algorithms usually require hyperparameters to be set in order to operate, which not surprisingly often demand a minimum knowledge of the application domain to be fine-tuned. Since many traditional data mining algorithms employ a greedy local search strategy, fine-tuning is a crucial step towards achieving better predictive models. On the other hand, Estimation of Distribution Algorithms perform a global search, which often is more efficient than performing a wide search through the set of possible parameters. By using a quality function, estimation of distribution algorithms will iteratively seek better solutions throughout its evolutionary process. Based on the benefits that estimation of distribution algorithms may offer to clustering and decision tree-induction, two data mining tasks considered to be NP-hard and NPhard/ complete, respectively, this works aims at developing novel algorithms in order to obtain better results than traditional, greedy algorithms and baseline evolutionary approaches.Submitted by Caroline Xavier (caroline.xavier@pucrs.br) on 2017-06-29T11:51:00Z No. of bitstreams: 1 DIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdf: 3650909 bytes, checksum: 55d52061a10460875dba677a9812fe9c (MD5)Made available in DSpace on 2017-06-29T11:51:00Z (GMT). No. of bitstreams: 1 DIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdf: 3650909 bytes, checksum: 55d52061a10460875dba677a9812fe9c (MD5) Previous issue date: 2017-03-20application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/168920/DIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdf.jpgengPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilFaculdade de InformáticaEstimation of Distribution AlgorithmDecision-Tree InductionClusteringOptimizationAlgoritmos de Estimativa de DistribuiçãoIndução de Árvores de DecisãoAgrupamentoOtimizaçãoCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOEstimation of distribution algorithms for clustering and classificationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis1974996533081274470600600600-30085425104011491443671711205811204509info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILDIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdf.jpgDIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdf.jpgimage/jpeg3277http://tede2.pucrs.br/tede2/bitstream/tede/7384/5/DIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdf.jpg1e7620af253926ddaeb7e51d9ee4b9c5MD55TEXTDIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdf.txtDIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdf.txttext/plain149641http://tede2.pucrs.br/tede2/bitstream/tede/7384/4/DIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdf.txtf72cd493b6978324d3bea5cdcaf05073MD54LICENSElicense.txtlicense.txttext/plain; charset=utf-8590http://tede2.pucrs.br/tede2/bitstream/tede/7384/3/license.txt220e11f2d3ba5354f917c7035aadef24MD53ORIGINALDIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdfDIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdfapplication/pdf3650909http://tede2.pucrs.br/tede2/bitstream/tede/7384/2/DIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdf55d52061a10460875dba677a9812fe9cMD52tede/73842017-06-29 20:00:36.395oai:tede2.pucrs.br:tede/7384QXV0b3JpemE/P28gcGFyYSBQdWJsaWNhPz9vIEVsZXRyP25pY2E6IENvbSBiYXNlIG5vIGRpc3Bvc3RvIG5hIExlaSBGZWRlcmFsIG4/OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYT8/byBlbGV0cj9uaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWY/Y2lhIFVuaXZlcnNpZGFkZSBDYXQ/bGljYSBkbyBSaW8gR3JhbmRlIGRvIFN1bCwgc2VkaWFkYSBhIEF2LiBJcGlyYW5nYSA2NjgxLCBQb3J0byBBbGVncmUsIFJpbyBHcmFuZGUgZG8gU3VsLCBjb20gcmVnaXN0cm8gZGUgQ05QSiA4ODYzMDQxMzAwMDItODEgYmVtIGNvbW8gZW0gb3V0cmFzIGJpYmxpb3RlY2FzIGRpZ2l0YWlzLCBuYWNpb25haXMgZSBpbnRlcm5hY2lvbmFpcywgY29ucz9yY2lvcyBlIHJlZGVzID9zIHF1YWlzIGEgYmlibGlvdGVjYSBkYSBQVUNSUyBwb3NzYSBhIHZpciBwYXJ0aWNpcGFyLCBzZW0gP251cyBhbHVzaXZvIGFvcyBkaXJlaXRvcyBhdXRvcmFpcywgYSB0P3R1bG8gZGUgZGl2dWxnYT8/byBkYSBwcm9kdT8/byBjaWVudD9maWNhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br\|\|opendoar:2017-06-29T23:00:36Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.por.fl_str_mv	Estimation of distribution algorithms for clustering and classification
title	Estimation of distribution algorithms for clustering and classification
spellingShingle	Estimation of distribution algorithms for clustering and classification Cagnini, Henry Emanuel Leal Estimation of Distribution Algorithm Decision-Tree Induction Clustering Optimization Algoritmos de Estimativa de Distribuição Indução de Árvores de Decisão Agrupamento Otimização CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short	Estimation of distribution algorithms for clustering and classification
title_full	Estimation of distribution algorithms for clustering and classification
title_fullStr	Estimation of distribution algorithms for clustering and classification
title_full_unstemmed	Estimation of distribution algorithms for clustering and classification
title_sort	Estimation of distribution algorithms for clustering and classification
author	Cagnini, Henry Emanuel Leal
author_facet	Cagnini, Henry Emanuel Leal
author_role	author
dc.contributor.advisor1.fl_str_mv	Barros, Rodrigo Coelho
dc.contributor.advisor1ID.fl_str_mv	008.272.080-06
dc.contributor.advisor1Lattes.fl_str_mv	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4526709Y3
dc.contributor.authorID.fl_str_mv	835.002.940-49
dc.contributor.authorLattes.fl_str_mv	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4404415Y4
dc.contributor.author.fl_str_mv	Cagnini, Henry Emanuel Leal
contributor_str_mv	Barros, Rodrigo Coelho
dc.subject.eng.fl_str_mv	Estimation of Distribution Algorithm Decision-Tree Induction Clustering Optimization
topic	Estimation of Distribution Algorithm Decision-Tree Induction Clustering Optimization Algoritmos de Estimativa de Distribuição Indução de Árvores de Decisão Agrupamento Otimização CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.por.fl_str_mv	Algoritmos de Estimativa de Distribuição Indução de Árvores de Decisão Agrupamento Otimização
dc.subject.cnpq.fl_str_mv	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description	Extrair informações relevantes a partir de dados não é uma tarefa fácil. Tais dados podem vir a partir de lotes ou em fluxos contínuos, podem ser completos ou possuir partes faltantes, podem ser duplicados, e também podem ser ruidosos. Ademais, existem diversos algoritmos que realizam tarefas de mineração de dados e, segundo o teorema do "Almoço Grátis", não existe apenas um algoritmo que venha a solucionar satisfatoriamente todos os possíveis problemas. Como um obstáculo final, algoritmos geralmente necessitam que hiper-parâmetros sejam definidos, o que não surpreendentemente demanda um mínimo de conhecimento sobre o domínio da aplicação para que tais parâmetros sejam corretamente definidos. Já que vários algoritmos tradicionais empregam estratégias de busca local gulosas, realizar um ajuste fino sobre estes hiper-parâmetros se torna uma etapa crucial a fim de obter modelos preditivos de qualidade superior. Por outro lado, Algoritmos de Estimativa de Distribuição realizam uma busca global, geralmente mais eficiente que realizar uma buscam exaustiva sobre todas as possíveis soluções para um determinado problema. Valendo-se de uma função de aptidão, algoritmos de estimativa de distribuição irão iterativamente procurar por melhores soluções durante seu processo evolutivo. Baseado nos benefícios que o emprego de algoritmos de estimativa de distribuição podem oferecer para as tarefas de agrupamento e indução de árvores de decisão, duas tarefas de mineração de dados consideradas NP-difícil e NP-difícil/completo respectivamente, este trabalho visa desenvolver novos algoritmos de estimativa de distribuição a fim de obter melhores resultados em relação a métodos tradicionais que empregam estratégias de busca local gulosas, e também sobre outros algoritmos evolutivos.
publishDate	2017
dc.date.accessioned.fl_str_mv	2017-06-29T11:51:00Z
dc.date.issued.fl_str_mv	2017-03-20
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://tede2.pucrs.br/tede2/handle/tede/7384
url	http://tede2.pucrs.br/tede2/handle/tede/7384
dc.language.iso.fl_str_mv	eng
language	eng
dc.relation.program.fl_str_mv	1974996533081274470
dc.relation.confidence.fl_str_mv	600 600 600
dc.relation.department.fl_str_mv	-3008542510401149144
dc.relation.cnpq.fl_str_mv	3671711205811204509
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Pontifícia Universidade Católica do Rio Grande do Sul
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv	PUCRS
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Faculdade de Informática
publisher.none.fl_str_mv	Pontifícia Universidade Católica do Rio Grande do Sul
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS
instname_str	Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str	PUC_RS
institution	PUC_RS
reponame_str	Biblioteca Digital de Teses e Dissertações da PUC_RS
collection	Biblioteca Digital de Teses e Dissertações da PUC_RS
bitstream.url.fl_str_mv	http://tede2.pucrs.br/tede2/bitstream/tede/7384/5/DIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdf.jpg http://tede2.pucrs.br/tede2/bitstream/tede/7384/4/DIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdf.txt http://tede2.pucrs.br/tede2/bitstream/tede/7384/3/license.txt http://tede2.pucrs.br/tede2/bitstream/tede/7384/2/DIS_HENRY_EMANUEL_LEAL_CAGNINI_COMPLETO.pdf
bitstream.checksum.fl_str_mv	1e7620af253926ddaeb7e51d9ee4b9c5 f72cd493b6978324d3bea5cdcaf05073 220e11f2d3ba5354f917c7035aadef24 55d52061a10460875dba677a9812fe9c
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv	biblioteca.central@pucrs.br\|\|
_version_	1821771210649763840

Estimation of distribution algorithms for clustering and classification

Registros relacionados