Redes de regras de associação
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-04022020-112230/ |
Resumo: | Regras de associação são amplamente utilizadas na literatura para extrair e explorar correlações dentro de bases de dados. As regras são extraídas por meio de uma análise combinatória de todos os possíveis valores de variáveis, com tamanho variando de 2 a N, sendo filtradas por medidas como suporte e confiança. O suporte aplica um filtro de ocorrência mínima, enquanto a confiança apresenta um filtro de probabilidade condicional mínima. Por esse motivo, as regras de associação tendem a apresentar 1 dos 2 problemas: (i) os valores de suporte e confiança são muito altos e somente regras óbvias são apresentadas ou (ii) os valores de suporte e confiança são muito baixos e o número de regras extraídas é extremamente alto. No caso (i), o conhecimento extraído provavelmente não é novidade para o especialista da área, o que torna todo o processo de mineração não produtivo. Já no caso (ii), há um conhecimento potencialmente útil extraído pelas regras; entretanto, devido ao alto número de padrões, esse conhecimento é difícil de ser encontrado. Visando auxiliar o problema descrito em (ii), foram propostos algumas abordagens de pós-processamento de regras de associação, entre elas a Association Rule Network (ARN). A ARN é capaz de explorar a base de regras de acordo com um item objetivo, focando toda a exploração em identificar quais itens da base estão correlacionados com o item escolhido. Ao modelar apenas um único item, a ARN mostrou-se incompleta, uma vez que itens dominantes podem se relacionar com vários itens de uma base de dados mas não ser importante para a ocorrência de nenhum deles. Neste doutorado foram propostas 2 abordagens capazes de explorar as regras geradas, focando a exploração em mais de um item objetivo. A exARN Convencional e a exARN Gulosa. Ao explorar as regras com mais de um item objetivo, as abordagens propostas são capazes de identificar itens dominantes, que são itens que se relacionam com vários itens objetivos, e itens determinantes, que se relacionam com apenas um único item objetivo. Os resultados para ambas as abordagens foram promissores. A exARN Convencional apresentou bons resultados em bases menos densas, na qual há menos relações existentes entre os itens. Já a exARN Gulosa apresentou bons resultados em bases extremamente densas, uma vez que o algoritmo guloso por trás da abordagem é capaz de reduzir drasticamente a quantidade de regras modeladas. |
id |
USP_80c0a261d6f77d51725064fc2ada65af |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-04022020-112230 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Redes de regras de associaçãoAssociation Rule NetworkAssociation ruleGrafoGraphNetworkPós-processamentoPost-processingRedeRegras de associaçãoRegras de associação são amplamente utilizadas na literatura para extrair e explorar correlações dentro de bases de dados. As regras são extraídas por meio de uma análise combinatória de todos os possíveis valores de variáveis, com tamanho variando de 2 a N, sendo filtradas por medidas como suporte e confiança. O suporte aplica um filtro de ocorrência mínima, enquanto a confiança apresenta um filtro de probabilidade condicional mínima. Por esse motivo, as regras de associação tendem a apresentar 1 dos 2 problemas: (i) os valores de suporte e confiança são muito altos e somente regras óbvias são apresentadas ou (ii) os valores de suporte e confiança são muito baixos e o número de regras extraídas é extremamente alto. No caso (i), o conhecimento extraído provavelmente não é novidade para o especialista da área, o que torna todo o processo de mineração não produtivo. Já no caso (ii), há um conhecimento potencialmente útil extraído pelas regras; entretanto, devido ao alto número de padrões, esse conhecimento é difícil de ser encontrado. Visando auxiliar o problema descrito em (ii), foram propostos algumas abordagens de pós-processamento de regras de associação, entre elas a Association Rule Network (ARN). A ARN é capaz de explorar a base de regras de acordo com um item objetivo, focando toda a exploração em identificar quais itens da base estão correlacionados com o item escolhido. Ao modelar apenas um único item, a ARN mostrou-se incompleta, uma vez que itens dominantes podem se relacionar com vários itens de uma base de dados mas não ser importante para a ocorrência de nenhum deles. Neste doutorado foram propostas 2 abordagens capazes de explorar as regras geradas, focando a exploração em mais de um item objetivo. A exARN Convencional e a exARN Gulosa. Ao explorar as regras com mais de um item objetivo, as abordagens propostas são capazes de identificar itens dominantes, que são itens que se relacionam com vários itens objetivos, e itens determinantes, que se relacionam com apenas um único item objetivo. Os resultados para ambas as abordagens foram promissores. A exARN Convencional apresentou bons resultados em bases menos densas, na qual há menos relações existentes entre os itens. Já a exARN Gulosa apresentou bons resultados em bases extremamente densas, uma vez que o algoritmo guloso por trás da abordagem é capaz de reduzir drasticamente a quantidade de regras modeladas.Association rules are widely used in the literature to extract and explore correlations within databases. The rules are extracted through a combinatorial analysis of all possible variable values, ranging in size from 2 to N, and filtered by measures such as support and confidence. Support applies a minimum occurrence filter, while confidence has a minimum conditional probability filter. For this reason, association rules tend to present 1 of 2 problems: (i) the values of support and confidence are too high and only obvious rules are presented or (ii) the values of support and confidence are too low and the number of extracted rules is extremely high. In case (i), the extracted knowledge is probably not new to the area expert, which makes the entire mining process non-productive. In case (ii), there is potentially useful knowledge extracted by the rules; However, due to the high number of standards, this knowledge is difficult to find. In order to assist the problem described in (ii), some association rule postprocessing approaches have been proposed, among them the Association Rule Network (ARN). The ARN is able to explore the rule base according to an objective item, focusing all exploration on identifying which base items correlate with the chosen item. When modeling only a single item, the ARN proved incomplete, since dominant items can relate to multiple items in a database but are not important for any of them to occur. In this doctorate we proposed 2 approaches capable of exploring the generated rules, focusing the exploration on more than one objective item. The Conventional exARN and the Greedy exARN. By exploring rules with more than one objective item, the proposed approaches are able to identify dominant items, which are items that relate to multiple objective items, and determining items, which relate to only a single objective item. The results for both approaches were promising. The Conventional exARN performed well on a less dense bases, where there are fewer relationships between items. The Greedy exARN has performed well on extremely dense bases, since the greedy algorithm behind the approach is able to drastically reduce the amount of rules modeled.Biblioteca Digitais de Teses e Dissertações da USPRamos, Fabio TozetoRezende, Solange OliveiraPadua, Renan de2019-10-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-04022020-112230/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2020-02-04T16:27:01Zoai:teses.usp.br:tde-04022020-112230Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-02-04T16:27:01Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Redes de regras de associação Association Rule Network |
title |
Redes de regras de associação |
spellingShingle |
Redes de regras de associação Padua, Renan de Association rule Grafo Graph Network Pós-processamento Post-processing Rede Regras de associação |
title_short |
Redes de regras de associação |
title_full |
Redes de regras de associação |
title_fullStr |
Redes de regras de associação |
title_full_unstemmed |
Redes de regras de associação |
title_sort |
Redes de regras de associação |
author |
Padua, Renan de |
author_facet |
Padua, Renan de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ramos, Fabio Tozeto Rezende, Solange Oliveira |
dc.contributor.author.fl_str_mv |
Padua, Renan de |
dc.subject.por.fl_str_mv |
Association rule Grafo Graph Network Pós-processamento Post-processing Rede Regras de associação |
topic |
Association rule Grafo Graph Network Pós-processamento Post-processing Rede Regras de associação |
description |
Regras de associação são amplamente utilizadas na literatura para extrair e explorar correlações dentro de bases de dados. As regras são extraídas por meio de uma análise combinatória de todos os possíveis valores de variáveis, com tamanho variando de 2 a N, sendo filtradas por medidas como suporte e confiança. O suporte aplica um filtro de ocorrência mínima, enquanto a confiança apresenta um filtro de probabilidade condicional mínima. Por esse motivo, as regras de associação tendem a apresentar 1 dos 2 problemas: (i) os valores de suporte e confiança são muito altos e somente regras óbvias são apresentadas ou (ii) os valores de suporte e confiança são muito baixos e o número de regras extraídas é extremamente alto. No caso (i), o conhecimento extraído provavelmente não é novidade para o especialista da área, o que torna todo o processo de mineração não produtivo. Já no caso (ii), há um conhecimento potencialmente útil extraído pelas regras; entretanto, devido ao alto número de padrões, esse conhecimento é difícil de ser encontrado. Visando auxiliar o problema descrito em (ii), foram propostos algumas abordagens de pós-processamento de regras de associação, entre elas a Association Rule Network (ARN). A ARN é capaz de explorar a base de regras de acordo com um item objetivo, focando toda a exploração em identificar quais itens da base estão correlacionados com o item escolhido. Ao modelar apenas um único item, a ARN mostrou-se incompleta, uma vez que itens dominantes podem se relacionar com vários itens de uma base de dados mas não ser importante para a ocorrência de nenhum deles. Neste doutorado foram propostas 2 abordagens capazes de explorar as regras geradas, focando a exploração em mais de um item objetivo. A exARN Convencional e a exARN Gulosa. Ao explorar as regras com mais de um item objetivo, as abordagens propostas são capazes de identificar itens dominantes, que são itens que se relacionam com vários itens objetivos, e itens determinantes, que se relacionam com apenas um único item objetivo. Os resultados para ambas as abordagens foram promissores. A exARN Convencional apresentou bons resultados em bases menos densas, na qual há menos relações existentes entre os itens. Já a exARN Gulosa apresentou bons resultados em bases extremamente densas, uma vez que o algoritmo guloso por trás da abordagem é capaz de reduzir drasticamente a quantidade de regras modeladas. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-10-25 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-04022020-112230/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-04022020-112230/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256649415262208 |