Data Mining na procura de nova informação: Market Basket Analysis aplicado a um dataset público
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.26/37552 |
Resumo: | Hoje em dia, a população encontra-se sobrecarregada com dados, quando todas as atividades realizadas pelas organizações e pessoas, no seu dia-a-dia, geram dados. Contudo, o facto de termos acesso a um enorme volume de dados não significa que tenhamos acesso a muita informação ou conhecimento. É, portanto, importante trabalhar os dados por forma a gerar informação relevante para a tomada de decisão, pois num mundo globalizado e extremamente competitivo, um minuto pode ser fulcral para fechar um negócio e, para tal, é necessário ter acesso à informação atual, correta e sumarizada. Face ao volume de dados existente e a necessidade de criar vantagens competitivas para as empresas sobreviverem nos seus mercados importa analisar os dados por forma a identificar informação que poderia estar oculta ou padrões nos comportamentos dos consumidores. É aqui que entra o data mining, cujo principal objetivo é analisar os dados e encontrar anomalias, padrões ou novas informações que auxiliem na tomada de decisão. O setor do retalho é um dos setores que mais valor monetário gera mundialmente e um dos setores onde a concorrência é mais feroz, pelo que quanto mais conhecimento e informações as empresas tiverem ao seu dispor maior será a probabilidade de conseguirem adquirir vantagens competitivas. Nesta procura de informação temos como exemplo as regras de associação, uma técnica de data mining cujo objetivo é encontrar itens que ocorrem frequentemente e em conjunto nos cestos de compras dos clientes. Um dos algoritmos concebidos para a geração de regras de associação é o algoritmo Apriori em que a sua génese foi baseada na análise de compras efetuadas num supermercado. Ao aplicar algoritmos para obter regras de associação ao setor do retalho é comum indicar- se que se usou uma técnica de market basket analysis. Este trabalho tem como principais objetivos a análise exploratória de um dataset público com um grande conjunto de compras (Instacart) e a geração de regras de associação recorrendo à utilização do algoritmo Apriori. Consoante os resultados obtidos serão sugeridas ideias para implementar novas estratégia de marketing. Este trabalho iniciou-se com a revisão da literatura, investigando os conceitos de data mining, regras de associação e market basket analysis. Como bússola orientadora para a aplicação de técnicas de data mining seguiu-se a metodologia CRISP. Para a análise exploratória dos dados foi utilizado o software Power BI e para a transformação dos dados e aplicação do algoritmo Apriori e consequentemente a geração das regras de associação recorreu-se à linguagem Python. |
id |
RCAP_079a23322ebb1b7da933c813c9bf8c06 |
---|---|
oai_identifier_str |
oai:comum.rcaap.pt:10400.26/37552 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Data Mining na procura de nova informação: Market Basket Analysis aplicado a um dataset públicoData MiningRegras de AssociaçãoAlgoritmo AprioriAssociation RulesApriori AlgorithmHoje em dia, a população encontra-se sobrecarregada com dados, quando todas as atividades realizadas pelas organizações e pessoas, no seu dia-a-dia, geram dados. Contudo, o facto de termos acesso a um enorme volume de dados não significa que tenhamos acesso a muita informação ou conhecimento. É, portanto, importante trabalhar os dados por forma a gerar informação relevante para a tomada de decisão, pois num mundo globalizado e extremamente competitivo, um minuto pode ser fulcral para fechar um negócio e, para tal, é necessário ter acesso à informação atual, correta e sumarizada. Face ao volume de dados existente e a necessidade de criar vantagens competitivas para as empresas sobreviverem nos seus mercados importa analisar os dados por forma a identificar informação que poderia estar oculta ou padrões nos comportamentos dos consumidores. É aqui que entra o data mining, cujo principal objetivo é analisar os dados e encontrar anomalias, padrões ou novas informações que auxiliem na tomada de decisão. O setor do retalho é um dos setores que mais valor monetário gera mundialmente e um dos setores onde a concorrência é mais feroz, pelo que quanto mais conhecimento e informações as empresas tiverem ao seu dispor maior será a probabilidade de conseguirem adquirir vantagens competitivas. Nesta procura de informação temos como exemplo as regras de associação, uma técnica de data mining cujo objetivo é encontrar itens que ocorrem frequentemente e em conjunto nos cestos de compras dos clientes. Um dos algoritmos concebidos para a geração de regras de associação é o algoritmo Apriori em que a sua génese foi baseada na análise de compras efetuadas num supermercado. Ao aplicar algoritmos para obter regras de associação ao setor do retalho é comum indicar- se que se usou uma técnica de market basket analysis. Este trabalho tem como principais objetivos a análise exploratória de um dataset público com um grande conjunto de compras (Instacart) e a geração de regras de associação recorrendo à utilização do algoritmo Apriori. Consoante os resultados obtidos serão sugeridas ideias para implementar novas estratégia de marketing. Este trabalho iniciou-se com a revisão da literatura, investigando os conceitos de data mining, regras de associação e market basket analysis. Como bússola orientadora para a aplicação de técnicas de data mining seguiu-se a metodologia CRISP. Para a análise exploratória dos dados foi utilizado o software Power BI e para a transformação dos dados e aplicação do algoritmo Apriori e consequentemente a geração das regras de associação recorreu-se à linguagem Python.Nowadays, the population is overloaded with data, where practically all activities performed generate it. However, the fact that we have access to a huge amount of data does not mean that we have access to a lot of information. Therefore, it is important to process the data in order to generate relevant information for decision making as well as to separate the relevant and non-relevant data in order to speed up processes that generate important information in decision making, because in a globalized and extremely competitive world, a minute can decide the fate of closing a deal. Given the volume of data that exists and the need to create competitive advantages for companies to survive in their markets, it is important to analyze the data to identify information that could be hidden or patterns in consumer behavior. This is where data mining comes in, its main goal is to analyze data and find anomalies, patterns or new information to assist in decision making. The retail area is one of the most monetarily generated areas in the world and one of the fiercest competition areas, so companies that have better knowledge and information are likely to gain competitive advantage. In this information quest, we have as an example the association rules, a data mining technique where the objective is to find items that occur frequently and together. One of the algorithms designed to generate association rules is the Apriori algorithm, its genesis was based on the analysis of purchases made in a supermarket. Thus, when applying the rules of association to the retail sector, it is usual to indicate that the market basket analysis technique was used. This work has as main objectives the exploratory data analysis of a public dataset with a huge number of market baskets records (Instacart) and the generation of association rules using the Apriori algorithm. Depending on the results obtained, ideas for implementing a new marketing strategy will be suggested. This work started with the literature review, investigating the concepts of data mining, association rules and market basket analysis. An example of the application of the Apriori algorithm for the generation of association rules was also verified. As a guiding compass for the application of data mining techniques, the CRISP methodology was followed. For exploratory data analysis is was used Power BI software and for data transformation and application of the Apriori algorithm and consequently the generation of association rules was used Python.Barbosa, VictorRepositório ComumOliveira, Joana Raquel Carias de2021-09-23T13:54:21Z2019-122019-12-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.26/37552TID:202365778porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-21T09:56:17Zoai:comum.rcaap.pt:10400.26/37552Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T23:11:49.283664Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Data Mining na procura de nova informação: Market Basket Analysis aplicado a um dataset público |
title |
Data Mining na procura de nova informação: Market Basket Analysis aplicado a um dataset público |
spellingShingle |
Data Mining na procura de nova informação: Market Basket Analysis aplicado a um dataset público Oliveira, Joana Raquel Carias de Data Mining Regras de Associação Algoritmo Apriori Association Rules Apriori Algorithm |
title_short |
Data Mining na procura de nova informação: Market Basket Analysis aplicado a um dataset público |
title_full |
Data Mining na procura de nova informação: Market Basket Analysis aplicado a um dataset público |
title_fullStr |
Data Mining na procura de nova informação: Market Basket Analysis aplicado a um dataset público |
title_full_unstemmed |
Data Mining na procura de nova informação: Market Basket Analysis aplicado a um dataset público |
title_sort |
Data Mining na procura de nova informação: Market Basket Analysis aplicado a um dataset público |
author |
Oliveira, Joana Raquel Carias de |
author_facet |
Oliveira, Joana Raquel Carias de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Barbosa, Victor Repositório Comum |
dc.contributor.author.fl_str_mv |
Oliveira, Joana Raquel Carias de |
dc.subject.por.fl_str_mv |
Data Mining Regras de Associação Algoritmo Apriori Association Rules Apriori Algorithm |
topic |
Data Mining Regras de Associação Algoritmo Apriori Association Rules Apriori Algorithm |
description |
Hoje em dia, a população encontra-se sobrecarregada com dados, quando todas as atividades realizadas pelas organizações e pessoas, no seu dia-a-dia, geram dados. Contudo, o facto de termos acesso a um enorme volume de dados não significa que tenhamos acesso a muita informação ou conhecimento. É, portanto, importante trabalhar os dados por forma a gerar informação relevante para a tomada de decisão, pois num mundo globalizado e extremamente competitivo, um minuto pode ser fulcral para fechar um negócio e, para tal, é necessário ter acesso à informação atual, correta e sumarizada. Face ao volume de dados existente e a necessidade de criar vantagens competitivas para as empresas sobreviverem nos seus mercados importa analisar os dados por forma a identificar informação que poderia estar oculta ou padrões nos comportamentos dos consumidores. É aqui que entra o data mining, cujo principal objetivo é analisar os dados e encontrar anomalias, padrões ou novas informações que auxiliem na tomada de decisão. O setor do retalho é um dos setores que mais valor monetário gera mundialmente e um dos setores onde a concorrência é mais feroz, pelo que quanto mais conhecimento e informações as empresas tiverem ao seu dispor maior será a probabilidade de conseguirem adquirir vantagens competitivas. Nesta procura de informação temos como exemplo as regras de associação, uma técnica de data mining cujo objetivo é encontrar itens que ocorrem frequentemente e em conjunto nos cestos de compras dos clientes. Um dos algoritmos concebidos para a geração de regras de associação é o algoritmo Apriori em que a sua génese foi baseada na análise de compras efetuadas num supermercado. Ao aplicar algoritmos para obter regras de associação ao setor do retalho é comum indicar- se que se usou uma técnica de market basket analysis. Este trabalho tem como principais objetivos a análise exploratória de um dataset público com um grande conjunto de compras (Instacart) e a geração de regras de associação recorrendo à utilização do algoritmo Apriori. Consoante os resultados obtidos serão sugeridas ideias para implementar novas estratégia de marketing. Este trabalho iniciou-se com a revisão da literatura, investigando os conceitos de data mining, regras de associação e market basket analysis. Como bússola orientadora para a aplicação de técnicas de data mining seguiu-se a metodologia CRISP. Para a análise exploratória dos dados foi utilizado o software Power BI e para a transformação dos dados e aplicação do algoritmo Apriori e consequentemente a geração das regras de associação recorreu-se à linguagem Python. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-12 2019-12-01T00:00:00Z 2021-09-23T13:54:21Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.26/37552 TID:202365778 |
url |
http://hdl.handle.net/10400.26/37552 |
identifier_str_mv |
TID:202365778 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799135388341633024 |