Explorando técnicas de redução de base de dados na mineração de padrões sequênciais
Autor(a) principal: | |
---|---|
Data de Publicação: | 2008 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
Texto Completo: | https://app.uff.br/riuff/handle/1/17106 |
Resumo: | During the last ten years, many algorithms have been proposed to mine sequential patterns. Some of them are based on the Apriori algorithm, developed to iteratively mine frequent itemsets, for example the GSP algorithm. Results obtained from experiments using these category of algorithms have shown that the candidate support count phase spends a huge part of the execution time. In this work, aiming at reducing the computational cost of multiple database scans and the computational effort to count the support of the candidate sequences, typical of iterative algorithms for the problem of mining sequential patterns, we propose the progressive reduction of the database during the execution of the algorithm. Therefore, fewer transactions are read at each iteration and the computational cost of counting the support of each candidate is reduced. Results obtained from evaluating different combinations of databases and minimum supports have shown that the database pruning techniques, adopted by the proposed algorithm GSP2P, significantly reduce the total execution time of the GSP2 algorithm (implementation of GSP), which does not use pruning mechanisms. In this same work, aiming at validating the use of the proposed database pruning techniques and extending their applications, the techniques were applied to the problem of constraint-based sequential patterns mining. Results obtained from evaluating different combinations of databases and constraint selectivity values have shown that the database pruning techniques, adopted by the proposed algorithm GSP2P-F, significantly reduce the total execution time of the GSP2-F algorithm, which does not use pruning mechanisms. |
id |
UFF-2_a2732aad53a93125f089585b4bc2b207 |
---|---|
oai_identifier_str |
oai:app.uff.br:1/17106 |
network_acronym_str |
UFF-2 |
network_name_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository_id_str |
2120 |
spelling |
Explorando técnicas de redução de base de dados na mineração de padrões sequênciaisCiência da computaçãoAlgoritmoOtimização combinatóriaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAODuring the last ten years, many algorithms have been proposed to mine sequential patterns. Some of them are based on the Apriori algorithm, developed to iteratively mine frequent itemsets, for example the GSP algorithm. Results obtained from experiments using these category of algorithms have shown that the candidate support count phase spends a huge part of the execution time. In this work, aiming at reducing the computational cost of multiple database scans and the computational effort to count the support of the candidate sequences, typical of iterative algorithms for the problem of mining sequential patterns, we propose the progressive reduction of the database during the execution of the algorithm. Therefore, fewer transactions are read at each iteration and the computational cost of counting the support of each candidate is reduced. Results obtained from evaluating different combinations of databases and minimum supports have shown that the database pruning techniques, adopted by the proposed algorithm GSP2P, significantly reduce the total execution time of the GSP2 algorithm (implementation of GSP), which does not use pruning mechanisms. In this same work, aiming at validating the use of the proposed database pruning techniques and extending their applications, the techniques were applied to the problem of constraint-based sequential patterns mining. Results obtained from evaluating different combinations of databases and constraint selectivity values have shown that the database pruning techniques, adopted by the proposed algorithm GSP2P-F, significantly reduce the total execution time of the GSP2-F algorithm, which does not use pruning mechanisms.Ao longo dos últimos dez anos, estratégias para extração de padrões seqüenciais vêm sendo desenvolvidas e aprimoradas. Algumas delas têm como base o algoritmo iterativo Apriori, desenvolvido para a extração de conjuntos freqüentes, como por exemplo a estratégia GSP. Experimentos computacionais realizados nesta categoria de estratégias indicam que a etapa de identificação das seqüências freqüentes (padrões seqüenciais), ou seja, a fase de contagem do suporte das seqüências candidatas consome grande parte do tempo total de execução. Sendo assim, nesta dissertação, com o objetivo de reduzir o custo de diversas leituras da base de dados e o esforço computacional da fase de contagem de seqüências candidatas, típicos dos algoritmos iterativos de extração de padrões seqüenciais, propõe-se a redução progressiva da base de dados ao longo da execução das iterações. Desta forma, menos transações são lidas a cada iteração e menor passa a ser o custo computacional para a obtenção do suporte de cada seqüência candidata. Os resultados avaliados, a partir de diferentes combinações de bases de dados e suportes mínimos, mostraram que as técnicas de redução de base implementadas no algoritmo proposto GSP2P reduzem significativamente o tempo de execução total do algoritmo sem poda de base GSP2 (implementação do GSP). Neste mesmo trabalho, com o objetivo de validar o uso das técnicas propostas e estender as suas aplicações, as técnicas de redução de base foram aplicadas ao problema de extração de padrões seqüenciais baseada em restrições. Os resultados avaliados, a partir de diferentes combinações de bases de dados e valores de seletividade das restrições, mostraram que as técnicas de redução de base implementadas no algoritmo proposto GSP2P-F reduzem significativamente o tempo de execução total do algoritmo sem poda de base GSP2-F.Programa de Pós-Graduação em ComputaçãoComputaçãoCarvalho, Alexandre Plastino deCPF:30090875322http://lattes.cnpq.br/4985266524417261Zadrozny, BiancaCPF:33280712222http://lattes.cnpq.br/1058528453390010Traina Junior, CaetanoCPF:34320900722http://lattes.cnpq.br/5118629875846648Barbosa, Ciro Bastos2021-03-10T19:09:37Z2008-03-052021-03-10T19:09:37Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfapplication/pdfhttps://app.uff.br/riuff/handle/1/17106porCC-BY-SAinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2021-03-10T19:09:37Zoai:app.uff.br:1/17106Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202021-03-10T19:09:37Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false |
dc.title.none.fl_str_mv |
Explorando técnicas de redução de base de dados na mineração de padrões sequênciais |
title |
Explorando técnicas de redução de base de dados na mineração de padrões sequênciais |
spellingShingle |
Explorando técnicas de redução de base de dados na mineração de padrões sequênciais Barbosa, Ciro Bastos Ciência da computação Algoritmo Otimização combinatória CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO |
title_short |
Explorando técnicas de redução de base de dados na mineração de padrões sequênciais |
title_full |
Explorando técnicas de redução de base de dados na mineração de padrões sequênciais |
title_fullStr |
Explorando técnicas de redução de base de dados na mineração de padrões sequênciais |
title_full_unstemmed |
Explorando técnicas de redução de base de dados na mineração de padrões sequênciais |
title_sort |
Explorando técnicas de redução de base de dados na mineração de padrões sequênciais |
author |
Barbosa, Ciro Bastos |
author_facet |
Barbosa, Ciro Bastos |
author_role |
author |
dc.contributor.none.fl_str_mv |
Carvalho, Alexandre Plastino de CPF:30090875322 http://lattes.cnpq.br/4985266524417261 Zadrozny, Bianca CPF:33280712222 http://lattes.cnpq.br/1058528453390010 Traina Junior, Caetano CPF:34320900722 http://lattes.cnpq.br/5118629875846648 |
dc.contributor.author.fl_str_mv |
Barbosa, Ciro Bastos |
dc.subject.por.fl_str_mv |
Ciência da computação Algoritmo Otimização combinatória CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO |
topic |
Ciência da computação Algoritmo Otimização combinatória CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO |
description |
During the last ten years, many algorithms have been proposed to mine sequential patterns. Some of them are based on the Apriori algorithm, developed to iteratively mine frequent itemsets, for example the GSP algorithm. Results obtained from experiments using these category of algorithms have shown that the candidate support count phase spends a huge part of the execution time. In this work, aiming at reducing the computational cost of multiple database scans and the computational effort to count the support of the candidate sequences, typical of iterative algorithms for the problem of mining sequential patterns, we propose the progressive reduction of the database during the execution of the algorithm. Therefore, fewer transactions are read at each iteration and the computational cost of counting the support of each candidate is reduced. Results obtained from evaluating different combinations of databases and minimum supports have shown that the database pruning techniques, adopted by the proposed algorithm GSP2P, significantly reduce the total execution time of the GSP2 algorithm (implementation of GSP), which does not use pruning mechanisms. In this same work, aiming at validating the use of the proposed database pruning techniques and extending their applications, the techniques were applied to the problem of constraint-based sequential patterns mining. Results obtained from evaluating different combinations of databases and constraint selectivity values have shown that the database pruning techniques, adopted by the proposed algorithm GSP2P-F, significantly reduce the total execution time of the GSP2-F algorithm, which does not use pruning mechanisms. |
publishDate |
2008 |
dc.date.none.fl_str_mv |
2008-03-05 2021-03-10T19:09:37Z 2021-03-10T19:09:37Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://app.uff.br/riuff/handle/1/17106 |
url |
https://app.uff.br/riuff/handle/1/17106 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
CC-BY-SA info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
CC-BY-SA |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf application/pdf |
dc.publisher.none.fl_str_mv |
Programa de Pós-Graduação em Computação Computação |
publisher.none.fl_str_mv |
Programa de Pós-Graduação em Computação Computação |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF |
instname_str |
Universidade Federal Fluminense (UFF) |
instacron_str |
UFF |
institution |
UFF |
reponame_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
collection |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF) |
repository.mail.fl_str_mv |
riuff@id.uff.br |
_version_ |
1819053576535670784 |