Sistema de recomendações em tempo real com spark-streaming

Detalhes bibliográficos
Autor(a) principal: Barros, Guilherme Peres
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10362/128812
Resumo: Project Work presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics
id RCAP_163715628f0b7a0cbf5c955071b6f388
oai_identifier_str oai:run.unl.pt:10362/128812
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Sistema de recomendações em tempo real com spark-streamingSistema de recomendaçãoFiltragem colaborativaAprendizado de máquinaKafkaProcessamento em tempo realHadoopSparkCollaborative filteringRecommendation systemMachine learningReal-time processingProject Work presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced AnalyticsApresenta-se o nome Triangulum como fictício para preservação dos dados da empresa. A empresa Triangulum Comunicação Ltda. é umas das maiores no segmento de comunicação de Portugal, vive o momento que a informação também gera dados e mais dados. Hoje o número de pageviews e o tempo de navegação do utilizador nos sites, são dois dos fatores mais importantes para a receita da Triangulum. Cada utilizador tem suas características de navegação, isso é de extrema relevância para a análise dos dados. Os artigos dos sites visitados têm sempre, ou quase sempre, uma referência, que pode ser um artigo, uma rede social ou até um mecanismo de pesquisa. Com essas informações iremos aplicar modelos de machine learning com o objetivo de fazer recomendações para os próximos artigos a serem lidos, de forma que o utilizador navegue pelos sites, desfrutando do conteúdo, atingindo maior tempo e mais pageviews. A coleta dos dados foi feita pela Triangulum, disponibilizando assim os dados de forma bruta. Após essa etapa de extrair, carregar e transformar, os dados armazenados no data lake são preparados e então partimos para a análise dos dados, será aplicado aos modelos de machine learning para a implementação do sistema de recomendação. O resultado é aplicado a cada artigo de todos os sites da Triangulum, ocupando parte do espaço disponível para as recomendações de leitura.The name Triangulum is presented as fictitious to preserve the company's data. The company Triangulum Communication Ltda. is one of the largest in the media segment in Portugal, experiencing the moment that information also generates data and more data. Today the number of pageviews and the user's time spent browsing the sites are so important for the company's revenue. Each user has their own navigation characteristic, this is extremely important for data analysis. The articles of the visited sites always have, or almost always, a reference, that can be an article, a social network or even a search engine. With this information we will apply machine learning models in order to make recommendations for the next articles to be read, so that the user navigates through the sites, enjoying the content, reaching more time and more pageviews. The data collection was done by the company, thus making the data available in a gross way. After this extract, load, and transform stage, the data stored in the data lake goes through a preparation phase before the data analysis, it will be applied to the machine learning models for the implementation of the recommendation system. The results are applied to each article on all company websites, taking up part of the space available for reading recommendations.Naranjo-Zolotov, Mijail JuanovichRUNBarros, Guilherme Peres2021-12-07T18:36:11Z2021-11-252021-11-25T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/128812TID:202809625porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T05:08:12Zoai:run.unl.pt:10362/128812Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:46:24.654298Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Sistema de recomendações em tempo real com spark-streaming
title Sistema de recomendações em tempo real com spark-streaming
spellingShingle Sistema de recomendações em tempo real com spark-streaming
Barros, Guilherme Peres
Sistema de recomendação
Filtragem colaborativa
Aprendizado de máquina
Kafka
Processamento em tempo real
Hadoop
Spark
Collaborative filtering
Recommendation system
Machine learning
Real-time processing
title_short Sistema de recomendações em tempo real com spark-streaming
title_full Sistema de recomendações em tempo real com spark-streaming
title_fullStr Sistema de recomendações em tempo real com spark-streaming
title_full_unstemmed Sistema de recomendações em tempo real com spark-streaming
title_sort Sistema de recomendações em tempo real com spark-streaming
author Barros, Guilherme Peres
author_facet Barros, Guilherme Peres
author_role author
dc.contributor.none.fl_str_mv Naranjo-Zolotov, Mijail Juanovich
RUN
dc.contributor.author.fl_str_mv Barros, Guilherme Peres
dc.subject.por.fl_str_mv Sistema de recomendação
Filtragem colaborativa
Aprendizado de máquina
Kafka
Processamento em tempo real
Hadoop
Spark
Collaborative filtering
Recommendation system
Machine learning
Real-time processing
topic Sistema de recomendação
Filtragem colaborativa
Aprendizado de máquina
Kafka
Processamento em tempo real
Hadoop
Spark
Collaborative filtering
Recommendation system
Machine learning
Real-time processing
description Project Work presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics
publishDate 2021
dc.date.none.fl_str_mv 2021-12-07T18:36:11Z
2021-11-25
2021-11-25T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10362/128812
TID:202809625
url http://hdl.handle.net/10362/128812
identifier_str_mv TID:202809625
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799138067750060032