Sistema de recomendações em tempo real com spark-streaming
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10362/128812 |
Resumo: | Project Work presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics |
id |
RCAP_163715628f0b7a0cbf5c955071b6f388 |
---|---|
oai_identifier_str |
oai:run.unl.pt:10362/128812 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Sistema de recomendações em tempo real com spark-streamingSistema de recomendaçãoFiltragem colaborativaAprendizado de máquinaKafkaProcessamento em tempo realHadoopSparkCollaborative filteringRecommendation systemMachine learningReal-time processingProject Work presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced AnalyticsApresenta-se o nome Triangulum como fictício para preservação dos dados da empresa. A empresa Triangulum Comunicação Ltda. é umas das maiores no segmento de comunicação de Portugal, vive o momento que a informação também gera dados e mais dados. Hoje o número de pageviews e o tempo de navegação do utilizador nos sites, são dois dos fatores mais importantes para a receita da Triangulum. Cada utilizador tem suas características de navegação, isso é de extrema relevância para a análise dos dados. Os artigos dos sites visitados têm sempre, ou quase sempre, uma referência, que pode ser um artigo, uma rede social ou até um mecanismo de pesquisa. Com essas informações iremos aplicar modelos de machine learning com o objetivo de fazer recomendações para os próximos artigos a serem lidos, de forma que o utilizador navegue pelos sites, desfrutando do conteúdo, atingindo maior tempo e mais pageviews. A coleta dos dados foi feita pela Triangulum, disponibilizando assim os dados de forma bruta. Após essa etapa de extrair, carregar e transformar, os dados armazenados no data lake são preparados e então partimos para a análise dos dados, será aplicado aos modelos de machine learning para a implementação do sistema de recomendação. O resultado é aplicado a cada artigo de todos os sites da Triangulum, ocupando parte do espaço disponível para as recomendações de leitura.The name Triangulum is presented as fictitious to preserve the company's data. The company Triangulum Communication Ltda. is one of the largest in the media segment in Portugal, experiencing the moment that information also generates data and more data. Today the number of pageviews and the user's time spent browsing the sites are so important for the company's revenue. Each user has their own navigation characteristic, this is extremely important for data analysis. The articles of the visited sites always have, or almost always, a reference, that can be an article, a social network or even a search engine. With this information we will apply machine learning models in order to make recommendations for the next articles to be read, so that the user navigates through the sites, enjoying the content, reaching more time and more pageviews. The data collection was done by the company, thus making the data available in a gross way. After this extract, load, and transform stage, the data stored in the data lake goes through a preparation phase before the data analysis, it will be applied to the machine learning models for the implementation of the recommendation system. The results are applied to each article on all company websites, taking up part of the space available for reading recommendations.Naranjo-Zolotov, Mijail JuanovichRUNBarros, Guilherme Peres2021-12-07T18:36:11Z2021-11-252021-11-25T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/128812TID:202809625porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T05:08:12Zoai:run.unl.pt:10362/128812Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:46:24.654298Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Sistema de recomendações em tempo real com spark-streaming |
title |
Sistema de recomendações em tempo real com spark-streaming |
spellingShingle |
Sistema de recomendações em tempo real com spark-streaming Barros, Guilherme Peres Sistema de recomendação Filtragem colaborativa Aprendizado de máquina Kafka Processamento em tempo real Hadoop Spark Collaborative filtering Recommendation system Machine learning Real-time processing |
title_short |
Sistema de recomendações em tempo real com spark-streaming |
title_full |
Sistema de recomendações em tempo real com spark-streaming |
title_fullStr |
Sistema de recomendações em tempo real com spark-streaming |
title_full_unstemmed |
Sistema de recomendações em tempo real com spark-streaming |
title_sort |
Sistema de recomendações em tempo real com spark-streaming |
author |
Barros, Guilherme Peres |
author_facet |
Barros, Guilherme Peres |
author_role |
author |
dc.contributor.none.fl_str_mv |
Naranjo-Zolotov, Mijail Juanovich RUN |
dc.contributor.author.fl_str_mv |
Barros, Guilherme Peres |
dc.subject.por.fl_str_mv |
Sistema de recomendação Filtragem colaborativa Aprendizado de máquina Kafka Processamento em tempo real Hadoop Spark Collaborative filtering Recommendation system Machine learning Real-time processing |
topic |
Sistema de recomendação Filtragem colaborativa Aprendizado de máquina Kafka Processamento em tempo real Hadoop Spark Collaborative filtering Recommendation system Machine learning Real-time processing |
description |
Project Work presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-12-07T18:36:11Z 2021-11-25 2021-11-25T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10362/128812 TID:202809625 |
url |
http://hdl.handle.net/10362/128812 |
identifier_str_mv |
TID:202809625 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799138067750060032 |