CLASSIFICATION OF DATABASE REGISTERS THROUGH EVOLUTION OF ASSOCIATION RULES USING GENETIC ALGORITHMS

Detalhes bibliográficos
Autor(a) principal: CARLOS HENRIQUE PEREIRA LOPES
Data de Publicação: 1999
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=7297@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=7297@2
Resumo: Esta dissertação investiga a utilização de Algoritmos Genéticos (AG) no processo de descoberta de conhecimento implícito em Banco de Dados (KDD - Knowledge Discovery Database). O objetivo do trabalho foi avaliar o desempenho de Algoritmos Genéticos no processo de classificação de registros em Bancos de Dados (BD). O processo de classificação no contexto de Algoritmos Genéticos consiste na evolução de regras de associação que melhor caracterizem, através de sua acurácia e abrangência, um determinado grupo de registros do BD. O trabalho consistiu de 4 etapas principais: um estudo sobre a área de Knowledge Discovery Database (KDD); a definição de um modelo de AG aplicado à Mineração de Dados (Data Mining); a implementação de uma ferramenta (Rule-Evolver) de Mineração de Dados; e o estudo de casos. O estudo sobre a área de KDD envolveu todo o processo de descoberta de conhecimento útil em banco de dados: definição do problema; seleção dos dados; limpeza dos dados; pré-processamento dos dados; codificação dos dados; enriquecimento dos dados; mineração dos dados e a interpretação dos resultados. Em particular, o estudo destacou a fase de Mineração de Dados e os algoritmos e técnicas empregadas (Redes Neurais, Indução de regras, Modelos Estatísticos e Algoritmos Genéticos). Deste estudo resultou um survey sobre os principais projetos de pesquisa na área. A modelagem do Algoritmo Genético consistiu fundamentalmente na definição de uma representação dos cromossomas, da função de avaliação e dos operadores genéticos. Em mineração de dados por regras de associação é necessário considerar-se atributos quantitativos e categóricos. Atributos quantitativos representam variáveis contínuas (faixa de valores) e atributos categóricos variáveis discretas. Na representação definida, cada cromossoma representa uma regra e cada gene corresponde a um atributo do BD, que pode ser quantitativo ou categórico conforme a aplicação. A função de avaliação associa um valor numérico à regra encontrada, refletindo assim uma medida da qualidade desta solução. A Mineração de Dados por AG é um problema de otimização onde a função de avaliação deve apontar para as melhores regras de associação. A acurácia e a abrangência são medidas de desempenho e, em alguns casos, se mantém nulas durante parte da evolução. Assim, a função de avaliação deve ser uma medida que destaca cromossomas contendo regras promissoras em apresentar acurácia e abrangência diferentes de zero. Foram implementadas 10 funções de avaliação. Os operadores genéticos utilizados (crossover e mutação) buscam recombinar as cláusulas das regras, de modo a procurar obter novas regras com maior acurácia e abrangência dentre as já encontradas. Foram implementados e testados 4 operadores de cruzamento e 2 de mutação. A implementação de uma ferramenta de modelagem de AG aplicada à Mineração de Dados, denominada Rule-Evolver, avaliou o modelo proposto para o problema de classificação de registros. O Rule-Evolver analisa um Banco de Dados e extrai as regras de associação que melhor diferenciem um grupo de registros em relação a todos os registros do Banco de Dados. Suas características principais são: seleção de atributos do BD; informações estatísticas dos atributos; escolha de uma função de avaliação entre as 10 implementadas; escolha dos operadores genéticos; visualização gráfica de desempenho do sistema; e interpretação de regras. Um operador genético é escolhido a cada reprodução em função de uma taxa preestabelecida pelo usuário. Esta taxa pode permanecer fixa ou variar durante o processo evolutivo. As funções de avaliação também podem ser alteradas (acrescidas de uma recompensa) em função da abrangência e da acurácia da regra. O Rule- Evolver possui uma interface entre o BD e o AG, necessária para tornar o processo de KDD e a fase de mineração dos dados mais ágeis. Para otimizar o processo de busca de regras e obter regras de melhor qualidade, foram impleme
id PUC_RIO-1_ccb4ce7a81d469cb7c30cf6ec7e4f660
oai_identifier_str oai:MAXWELL.puc-rio.br:7297
network_acronym_str PUC_RIO-1
network_name_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str 534
spelling info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisCLASSIFICATION OF DATABASE REGISTERS THROUGH EVOLUTION OF ASSOCIATION RULES USING GENETIC ALGORITHMS CLASSIFICAÇÃO DE REGISTROS EM BANCO DE DADOS POR EVOLUÇÃO DE REGRAS DE ASSOCIAÇÃO UTILIZANDO ALGORITMOS GENÉTICOS 1999-04-22MARLEY MARIA BERNARDES REBUZZI VELLASCO75758385700lattes.cnpq.br/8265116967095452MARCO AURELIO CAVALCANTI PACHECO27235831715lattes.cnpq.br/2283022405554044MARLEY MARIA BERNARDES REBUZZI VELLASCOEMMANUEL PISECES LOPES PASSOSMARCO AURELIO CAVALCANTI PACHECOMARCO AURELIO CAVALCANTI PACHECORUBENS NASCIMENTO MELO05862618775CARLOS HENRIQUE PEREIRA LOPESPONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIROPPG EM ENGENHARIA ELÉTRICAPUC-RioBREsta dissertação investiga a utilização de Algoritmos Genéticos (AG) no processo de descoberta de conhecimento implícito em Banco de Dados (KDD - Knowledge Discovery Database). O objetivo do trabalho foi avaliar o desempenho de Algoritmos Genéticos no processo de classificação de registros em Bancos de Dados (BD). O processo de classificação no contexto de Algoritmos Genéticos consiste na evolução de regras de associação que melhor caracterizem, através de sua acurácia e abrangência, um determinado grupo de registros do BD. O trabalho consistiu de 4 etapas principais: um estudo sobre a área de Knowledge Discovery Database (KDD); a definição de um modelo de AG aplicado à Mineração de Dados (Data Mining); a implementação de uma ferramenta (Rule-Evolver) de Mineração de Dados; e o estudo de casos. O estudo sobre a área de KDD envolveu todo o processo de descoberta de conhecimento útil em banco de dados: definição do problema; seleção dos dados; limpeza dos dados; pré-processamento dos dados; codificação dos dados; enriquecimento dos dados; mineração dos dados e a interpretação dos resultados. Em particular, o estudo destacou a fase de Mineração de Dados e os algoritmos e técnicas empregadas (Redes Neurais, Indução de regras, Modelos Estatísticos e Algoritmos Genéticos). Deste estudo resultou um survey sobre os principais projetos de pesquisa na área. A modelagem do Algoritmo Genético consistiu fundamentalmente na definição de uma representação dos cromossomas, da função de avaliação e dos operadores genéticos. Em mineração de dados por regras de associação é necessário considerar-se atributos quantitativos e categóricos. Atributos quantitativos representam variáveis contínuas (faixa de valores) e atributos categóricos variáveis discretas. Na representação definida, cada cromossoma representa uma regra e cada gene corresponde a um atributo do BD, que pode ser quantitativo ou categórico conforme a aplicação. A função de avaliação associa um valor numérico à regra encontrada, refletindo assim uma medida da qualidade desta solução. A Mineração de Dados por AG é um problema de otimização onde a função de avaliação deve apontar para as melhores regras de associação. A acurácia e a abrangência são medidas de desempenho e, em alguns casos, se mantém nulas durante parte da evolução. Assim, a função de avaliação deve ser uma medida que destaca cromossomas contendo regras promissoras em apresentar acurácia e abrangência diferentes de zero. Foram implementadas 10 funções de avaliação. Os operadores genéticos utilizados (crossover e mutação) buscam recombinar as cláusulas das regras, de modo a procurar obter novas regras com maior acurácia e abrangência dentre as já encontradas. Foram implementados e testados 4 operadores de cruzamento e 2 de mutação. A implementação de uma ferramenta de modelagem de AG aplicada à Mineração de Dados, denominada Rule-Evolver, avaliou o modelo proposto para o problema de classificação de registros. O Rule-Evolver analisa um Banco de Dados e extrai as regras de associação que melhor diferenciem um grupo de registros em relação a todos os registros do Banco de Dados. Suas características principais são: seleção de atributos do BD; informações estatísticas dos atributos; escolha de uma função de avaliação entre as 10 implementadas; escolha dos operadores genéticos; visualização gráfica de desempenho do sistema; e interpretação de regras. Um operador genético é escolhido a cada reprodução em função de uma taxa preestabelecida pelo usuário. Esta taxa pode permanecer fixa ou variar durante o processo evolutivo. As funções de avaliação também podem ser alteradas (acrescidas de uma recompensa) em função da abrangência e da acurácia da regra. O Rule- Evolver possui uma interface entre o BD e o AG, necessária para tornar o processo de KDD e a fase de mineração dos dados mais ágeis. Para otimizar o processo de busca de regras e obter regras de melhor qualidade, foram implemeThis dissertation investigates the application of Genetic Algorithms (GAs) to the process of implicit knowledge discovery over databases (KDD - Knowledge Discovery Database). The objective of the work has been the assessment of the Genetic Algorithms (GA) performance in the classification process of database registers. In the context of Genetic Algorithms, this classification process consists in the evolution of association rules that characterise, through its accuracy and range, a particular group of database registers. This work has encompassed four main steps: a study over the area of Knowledge Discovery Databases; the GA model definition applied to Data Mining; the implementation of the Data Mining Rule Evolver; and the case studies. The study over the KDD area included the overall process of useful knowledge discovery; the problem definition; data organisation; data pre-processing; data encoding; data improvement; data mining; and results´ interpretation. Particularly, the investigation emphasied the data mining procedure, techniques and algorithms (neural Networks, rule Induction, Statistics Models and Genetic Algorithms). A survey over the mais research projects in this area was developed from this work. The Genetic Algorithm modelling encompassed fundamentally, the definition of the chromosome representation, the fitness evaluation function and the genetic operators. Quantitative and categorical attributes must be taken into account within data mining through association rules. Quantitative attribites represent continuous variables (range of values), whereas categorical attributes are discrete variable. In the representation employed in this work, each chromosome represents a rule and each gene corresponds to a database attribute, which can be quantitative or categorical, depending on the application. The evaluation function associates a numerical value to the discovered rule, reflecting, therefore, the fitness evaluation function should drive the process towards the best association rules. The accuracy and range are performance statistics and, in some cases, their values stay nil during part of the evolutionary process. Therefore, the fitness evaluation function should reward chromosomes containing promising rules, which present accuracy and range different of zero. Ten fitness evaluation functions have been implemented. The genetic operators used in this work, crossover and mutation, seek to recombine rules´clauses in such a way to achieve rules of more accuracy and broader range when comparing the ones already sampled. Four splicing operators and two mutation operators have been experimented. The GA modeling tool implementation applied to Data Mining called Rule Evolever, evaluated the proposed model to the problem of register classification. The Rule Evolver analyses the database and extracts association rules that can better differentiate a group of registers comparing to the overall database registers. Its main features are: database attributes selection; attributes statistical information; evaluation function selection among ten implemented ones; genetic operators selection; graphical visualization of the system performance; and rules interpretation. A particular genetic operator is selected at each reproduction step, according to a previously defined rate set by the user. This rate may be kept fix or may very along the evolutionary process. The evolutionary process. The evaluation functions may also be changed (a rewarding may be included) according to the rule´s range and accuracy. The Rule Evolver implements as interface between the database and the GA, endowing the KDD process and the Data Mining phase with flexibility. In order to optimise the rules´ search process and to achieve better quality rules, some evolutionary techniques have been implemented (linear rank and elitism), and different random initialisation methods have been used as well; global average vaCONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICOhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=7297@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=7297@2porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2022-11-01T12:44:09Zoai:MAXWELL.puc-rio.br:7297Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342018-10-16T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.en.fl_str_mv CLASSIFICATION OF DATABASE REGISTERS THROUGH EVOLUTION OF ASSOCIATION RULES USING GENETIC ALGORITHMS
dc.title.alternative.pt.fl_str_mv CLASSIFICAÇÃO DE REGISTROS EM BANCO DE DADOS POR EVOLUÇÃO DE REGRAS DE ASSOCIAÇÃO UTILIZANDO ALGORITMOS GENÉTICOS
title CLASSIFICATION OF DATABASE REGISTERS THROUGH EVOLUTION OF ASSOCIATION RULES USING GENETIC ALGORITHMS
spellingShingle CLASSIFICATION OF DATABASE REGISTERS THROUGH EVOLUTION OF ASSOCIATION RULES USING GENETIC ALGORITHMS
CARLOS HENRIQUE PEREIRA LOPES
title_short CLASSIFICATION OF DATABASE REGISTERS THROUGH EVOLUTION OF ASSOCIATION RULES USING GENETIC ALGORITHMS
title_full CLASSIFICATION OF DATABASE REGISTERS THROUGH EVOLUTION OF ASSOCIATION RULES USING GENETIC ALGORITHMS
title_fullStr CLASSIFICATION OF DATABASE REGISTERS THROUGH EVOLUTION OF ASSOCIATION RULES USING GENETIC ALGORITHMS
title_full_unstemmed CLASSIFICATION OF DATABASE REGISTERS THROUGH EVOLUTION OF ASSOCIATION RULES USING GENETIC ALGORITHMS
title_sort CLASSIFICATION OF DATABASE REGISTERS THROUGH EVOLUTION OF ASSOCIATION RULES USING GENETIC ALGORITHMS
dc.creator.Lattes.none.fl_str_mv
author CARLOS HENRIQUE PEREIRA LOPES
author_facet CARLOS HENRIQUE PEREIRA LOPES
author_role author
dc.contributor.advisor2ID.none.fl_str_mv 27235831715
dc.contributor.advisor1.fl_str_mv MARLEY MARIA BERNARDES REBUZZI VELLASCO
dc.contributor.advisor1ID.fl_str_mv 75758385700
dc.contributor.advisor1Lattes.fl_str_mv lattes.cnpq.br/8265116967095452
dc.contributor.advisor2.fl_str_mv MARCO AURELIO CAVALCANTI PACHECO
dc.contributor.advisor2Lattes.fl_str_mv lattes.cnpq.br/2283022405554044
dc.contributor.referee1.fl_str_mv MARLEY MARIA BERNARDES REBUZZI VELLASCO
dc.contributor.referee2.fl_str_mv EMMANUEL PISECES LOPES PASSOS
dc.contributor.referee3.fl_str_mv MARCO AURELIO CAVALCANTI PACHECO
dc.contributor.referee4.fl_str_mv MARCO AURELIO CAVALCANTI PACHECO
dc.contributor.referee5.fl_str_mv RUBENS NASCIMENTO MELO
dc.contributor.authorID.fl_str_mv 05862618775
dc.contributor.author.fl_str_mv CARLOS HENRIQUE PEREIRA LOPES
contributor_str_mv MARLEY MARIA BERNARDES REBUZZI VELLASCO
MARCO AURELIO CAVALCANTI PACHECO
MARLEY MARIA BERNARDES REBUZZI VELLASCO
EMMANUEL PISECES LOPES PASSOS
MARCO AURELIO CAVALCANTI PACHECO
MARCO AURELIO CAVALCANTI PACHECO
RUBENS NASCIMENTO MELO
description Esta dissertação investiga a utilização de Algoritmos Genéticos (AG) no processo de descoberta de conhecimento implícito em Banco de Dados (KDD - Knowledge Discovery Database). O objetivo do trabalho foi avaliar o desempenho de Algoritmos Genéticos no processo de classificação de registros em Bancos de Dados (BD). O processo de classificação no contexto de Algoritmos Genéticos consiste na evolução de regras de associação que melhor caracterizem, através de sua acurácia e abrangência, um determinado grupo de registros do BD. O trabalho consistiu de 4 etapas principais: um estudo sobre a área de Knowledge Discovery Database (KDD); a definição de um modelo de AG aplicado à Mineração de Dados (Data Mining); a implementação de uma ferramenta (Rule-Evolver) de Mineração de Dados; e o estudo de casos. O estudo sobre a área de KDD envolveu todo o processo de descoberta de conhecimento útil em banco de dados: definição do problema; seleção dos dados; limpeza dos dados; pré-processamento dos dados; codificação dos dados; enriquecimento dos dados; mineração dos dados e a interpretação dos resultados. Em particular, o estudo destacou a fase de Mineração de Dados e os algoritmos e técnicas empregadas (Redes Neurais, Indução de regras, Modelos Estatísticos e Algoritmos Genéticos). Deste estudo resultou um survey sobre os principais projetos de pesquisa na área. A modelagem do Algoritmo Genético consistiu fundamentalmente na definição de uma representação dos cromossomas, da função de avaliação e dos operadores genéticos. Em mineração de dados por regras de associação é necessário considerar-se atributos quantitativos e categóricos. Atributos quantitativos representam variáveis contínuas (faixa de valores) e atributos categóricos variáveis discretas. Na representação definida, cada cromossoma representa uma regra e cada gene corresponde a um atributo do BD, que pode ser quantitativo ou categórico conforme a aplicação. A função de avaliação associa um valor numérico à regra encontrada, refletindo assim uma medida da qualidade desta solução. A Mineração de Dados por AG é um problema de otimização onde a função de avaliação deve apontar para as melhores regras de associação. A acurácia e a abrangência são medidas de desempenho e, em alguns casos, se mantém nulas durante parte da evolução. Assim, a função de avaliação deve ser uma medida que destaca cromossomas contendo regras promissoras em apresentar acurácia e abrangência diferentes de zero. Foram implementadas 10 funções de avaliação. Os operadores genéticos utilizados (crossover e mutação) buscam recombinar as cláusulas das regras, de modo a procurar obter novas regras com maior acurácia e abrangência dentre as já encontradas. Foram implementados e testados 4 operadores de cruzamento e 2 de mutação. A implementação de uma ferramenta de modelagem de AG aplicada à Mineração de Dados, denominada Rule-Evolver, avaliou o modelo proposto para o problema de classificação de registros. O Rule-Evolver analisa um Banco de Dados e extrai as regras de associação que melhor diferenciem um grupo de registros em relação a todos os registros do Banco de Dados. Suas características principais são: seleção de atributos do BD; informações estatísticas dos atributos; escolha de uma função de avaliação entre as 10 implementadas; escolha dos operadores genéticos; visualização gráfica de desempenho do sistema; e interpretação de regras. Um operador genético é escolhido a cada reprodução em função de uma taxa preestabelecida pelo usuário. Esta taxa pode permanecer fixa ou variar durante o processo evolutivo. As funções de avaliação também podem ser alteradas (acrescidas de uma recompensa) em função da abrangência e da acurácia da regra. O Rule- Evolver possui uma interface entre o BD e o AG, necessária para tornar o processo de KDD e a fase de mineração dos dados mais ágeis. Para otimizar o processo de busca de regras e obter regras de melhor qualidade, foram impleme
publishDate 1999
dc.date.issued.fl_str_mv 1999-04-22
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=7297@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=7297@2
url https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=7297@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=7297@2
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
dc.publisher.program.fl_str_mv PPG EM ENGENHARIA ELÉTRICA
dc.publisher.initials.fl_str_mv PUC-Rio
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
dc.source.none.fl_str_mv reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)
instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron:PUC_RIO
instname_str Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str PUC_RIO
institution PUC_RIO
reponame_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_ 1748324885252276224