Explorando técnicas de redução de base de dados na mineração de padrões sequênciais

Detalhes bibliográficos
Autor(a) principal: Barbosa, Ciro Bastos
Data de Publicação: 2008
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo: https://app.uff.br/riuff/handle/1/17106
Resumo: During the last ten years, many algorithms have been proposed to mine sequential patterns. Some of them are based on the Apriori algorithm, developed to iteratively mine frequent itemsets, for example the GSP algorithm. Results obtained from experiments using these category of algorithms have shown that the candidate support count phase spends a huge part of the execution time. In this work, aiming at reducing the computational cost of multiple database scans and the computational effort to count the support of the candidate sequences, typical of iterative algorithms for the problem of mining sequential patterns, we propose the progressive reduction of the database during the execution of the algorithm. Therefore, fewer transactions are read at each iteration and the computational cost of counting the support of each candidate is reduced. Results obtained from evaluating different combinations of databases and minimum supports have shown that the database pruning techniques, adopted by the proposed algorithm GSP2P, significantly reduce the total execution time of the GSP2 algorithm (implementation of GSP), which does not use pruning mechanisms. In this same work, aiming at validating the use of the proposed database pruning techniques and extending their applications, the techniques were applied to the problem of constraint-based sequential patterns mining. Results obtained from evaluating different combinations of databases and constraint selectivity values have shown that the database pruning techniques, adopted by the proposed algorithm GSP2P-F, significantly reduce the total execution time of the GSP2-F algorithm, which does not use pruning mechanisms.
id UFF-2_a2732aad53a93125f089585b4bc2b207
oai_identifier_str oai:app.uff.br:1/17106
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str 2120
spelling Explorando técnicas de redução de base de dados na mineração de padrões sequênciaisCiência da computaçãoAlgoritmoOtimização combinatóriaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAODuring the last ten years, many algorithms have been proposed to mine sequential patterns. Some of them are based on the Apriori algorithm, developed to iteratively mine frequent itemsets, for example the GSP algorithm. Results obtained from experiments using these category of algorithms have shown that the candidate support count phase spends a huge part of the execution time. In this work, aiming at reducing the computational cost of multiple database scans and the computational effort to count the support of the candidate sequences, typical of iterative algorithms for the problem of mining sequential patterns, we propose the progressive reduction of the database during the execution of the algorithm. Therefore, fewer transactions are read at each iteration and the computational cost of counting the support of each candidate is reduced. Results obtained from evaluating different combinations of databases and minimum supports have shown that the database pruning techniques, adopted by the proposed algorithm GSP2P, significantly reduce the total execution time of the GSP2 algorithm (implementation of GSP), which does not use pruning mechanisms. In this same work, aiming at validating the use of the proposed database pruning techniques and extending their applications, the techniques were applied to the problem of constraint-based sequential patterns mining. Results obtained from evaluating different combinations of databases and constraint selectivity values have shown that the database pruning techniques, adopted by the proposed algorithm GSP2P-F, significantly reduce the total execution time of the GSP2-F algorithm, which does not use pruning mechanisms.Ao longo dos últimos dez anos, estratégias para extração de padrões seqüenciais vêm sendo desenvolvidas e aprimoradas. Algumas delas têm como base o algoritmo iterativo Apriori, desenvolvido para a extração de conjuntos freqüentes, como por exemplo a estratégia GSP. Experimentos computacionais realizados nesta categoria de estratégias indicam que a etapa de identificação das seqüências freqüentes (padrões seqüenciais), ou seja, a fase de contagem do suporte das seqüências candidatas consome grande parte do tempo total de execução. Sendo assim, nesta dissertação, com o objetivo de reduzir o custo de diversas leituras da base de dados e o esforço computacional da fase de contagem de seqüências candidatas, típicos dos algoritmos iterativos de extração de padrões seqüenciais, propõe-se a redução progressiva da base de dados ao longo da execução das iterações. Desta forma, menos transações são lidas a cada iteração e menor passa a ser o custo computacional para a obtenção do suporte de cada seqüência candidata. Os resultados avaliados, a partir de diferentes combinações de bases de dados e suportes mínimos, mostraram que as técnicas de redução de base implementadas no algoritmo proposto GSP2P reduzem significativamente o tempo de execução total do algoritmo sem poda de base GSP2 (implementação do GSP). Neste mesmo trabalho, com o objetivo de validar o uso das técnicas propostas e estender as suas aplicações, as técnicas de redução de base foram aplicadas ao problema de extração de padrões seqüenciais baseada em restrições. Os resultados avaliados, a partir de diferentes combinações de bases de dados e valores de seletividade das restrições, mostraram que as técnicas de redução de base implementadas no algoritmo proposto GSP2P-F reduzem significativamente o tempo de execução total do algoritmo sem poda de base GSP2-F.Programa de Pós-Graduação em ComputaçãoComputaçãoCarvalho, Alexandre Plastino deCPF:30090875322http://lattes.cnpq.br/4985266524417261Zadrozny, BiancaCPF:33280712222http://lattes.cnpq.br/1058528453390010Traina Junior, CaetanoCPF:34320900722http://lattes.cnpq.br/5118629875846648Barbosa, Ciro Bastos2021-03-10T19:09:37Z2008-03-052021-03-10T19:09:37Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfapplication/pdfhttps://app.uff.br/riuff/handle/1/17106porCC-BY-SAinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2021-03-10T19:09:37Zoai:app.uff.br:1/17106Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202021-03-10T19:09:37Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv Explorando técnicas de redução de base de dados na mineração de padrões sequênciais
title Explorando técnicas de redução de base de dados na mineração de padrões sequênciais
spellingShingle Explorando técnicas de redução de base de dados na mineração de padrões sequênciais
Barbosa, Ciro Bastos
Ciência da computação
Algoritmo
Otimização combinatória
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO
title_short Explorando técnicas de redução de base de dados na mineração de padrões sequênciais
title_full Explorando técnicas de redução de base de dados na mineração de padrões sequênciais
title_fullStr Explorando técnicas de redução de base de dados na mineração de padrões sequênciais
title_full_unstemmed Explorando técnicas de redução de base de dados na mineração de padrões sequênciais
title_sort Explorando técnicas de redução de base de dados na mineração de padrões sequênciais
author Barbosa, Ciro Bastos
author_facet Barbosa, Ciro Bastos
author_role author
dc.contributor.none.fl_str_mv Carvalho, Alexandre Plastino de
CPF:30090875322
http://lattes.cnpq.br/4985266524417261
Zadrozny, Bianca
CPF:33280712222
http://lattes.cnpq.br/1058528453390010
Traina Junior, Caetano
CPF:34320900722
http://lattes.cnpq.br/5118629875846648
dc.contributor.author.fl_str_mv Barbosa, Ciro Bastos
dc.subject.por.fl_str_mv Ciência da computação
Algoritmo
Otimização combinatória
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO
topic Ciência da computação
Algoritmo
Otimização combinatória
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO
description During the last ten years, many algorithms have been proposed to mine sequential patterns. Some of them are based on the Apriori algorithm, developed to iteratively mine frequent itemsets, for example the GSP algorithm. Results obtained from experiments using these category of algorithms have shown that the candidate support count phase spends a huge part of the execution time. In this work, aiming at reducing the computational cost of multiple database scans and the computational effort to count the support of the candidate sequences, typical of iterative algorithms for the problem of mining sequential patterns, we propose the progressive reduction of the database during the execution of the algorithm. Therefore, fewer transactions are read at each iteration and the computational cost of counting the support of each candidate is reduced. Results obtained from evaluating different combinations of databases and minimum supports have shown that the database pruning techniques, adopted by the proposed algorithm GSP2P, significantly reduce the total execution time of the GSP2 algorithm (implementation of GSP), which does not use pruning mechanisms. In this same work, aiming at validating the use of the proposed database pruning techniques and extending their applications, the techniques were applied to the problem of constraint-based sequential patterns mining. Results obtained from evaluating different combinations of databases and constraint selectivity values have shown that the database pruning techniques, adopted by the proposed algorithm GSP2P-F, significantly reduce the total execution time of the GSP2-F algorithm, which does not use pruning mechanisms.
publishDate 2008
dc.date.none.fl_str_mv 2008-03-05
2021-03-10T19:09:37Z
2021-03-10T19:09:37Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://app.uff.br/riuff/handle/1/17106
url https://app.uff.br/riuff/handle/1/17106
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Programa de Pós-Graduação em Computação
Computação
publisher.none.fl_str_mv Programa de Pós-Graduação em Computação
Computação
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1819053576535670784