Sistemas de recomendação para conteúdos de aplicações web

Detalhes bibliográficos
Autor(a) principal: Jerónimo, Margarida Isabel de Oliveira
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.19/6725
Resumo: Grandes volumes de dados, referidos como Big Data, são gerados diariamente a uma taxa sem precedentes, a partir de fontes heterogéneas (e.g., meio ambiente, saúde, governo, redes sociais, marketing, transações financeiras). As novas tendências tecnológicas atuais, incluindo a Internet das Coisas (IoT – Internet of Things), a proliferação da Cloud Computing e a massificação dos dispositivos inteligentes (e.g., smartphones, smartwatches, dispositivos pervasivos e ubíquos), têm contribuído para esta explosão de dados. Como infraestrutura de suporte têm-se sistemas e aplicações distribuídos(as), públicos(as) e privados(as), interligados por redes de comunicação eletrónica de banda larga e elevado desempenho, normalmente com interface web. Os Sistemas de Recomendação são sistemas que procuram facilitar a penosa atividade de busca por conteúdo de interesse no Big Data. As principais funções dos Sistemas de Recomendação são a análise das diversas ações do utilizador do sistema. Com essa análise é possível extrair informações úteis para futuras predições, fornecendo recomendações de diferentes itens (e.g., sugestões de músicas, filmes, conteúdos de comércio eletrónico). Existem diferentes variantes nos sistemas de recomendação, nomeadamente, sistemas de filtragem colaborativa de classificações (ratings), filtragem baseada em conteúdo dos itens (e.g., descrição, características) ou de filtragem híbrida (que combinam as duas aproximações anteriores), tendo todos por objetivo a seleção de conteúdos de interesse tendo em conta os padrões de consumo dos utilizadores. O trabalho desenvolvido consistiu na implementação e validação de um protótipo de um Sistema de Recomendação de Conteúdos de Aplicações web, aplicado à recomendação de filmes. Para tal, utilizaram-se os MovieLens Datasets offline de ratings disponibilizados, pelo GroupLens, bem como informação disponibilizada online pelo site do TMDb. O sistema desenvolvido aprende o padrão de consumo de conteúdos do utilizador, prevendo o que irá consumir no futuro com base nos itens similares aos que demonstrou interesse (classificou) no passado, bem como na similaridade com outros utilizadores (que constituem a sua vizinhança) e assim fornecer os respetivos conteúdos de interesse, permitindo criar um modelo de utilizador. Utilizaram-se as técnicas de Filtragem Baseada em Conteúdo, Filtragem Colaborativa e Filtragem Híbrida baseadas em memória. A Filtragem Baseada em Conteúdo permite através da análise das caraterísticas dos itens, essencialmente baseadas na metodologia TFIDF para o processamento de linguagem natural (NLP), extrair as características ou atributos fundamentais dos itens e selecionar itens semelhantes ou propor classificações previstas para os itens de interesse ainda não classificados pelo utilizador ativo. A Filtragem Colaborativa permite aplicar a metodologia kNN, para identificar a semelhança entre o utilizador ativo, situados na vizinhança e propor classificações previstas para itens de interesse ainda não classificados. Ambas as aproximações têm inconvenientes e vantagens. A filtragem baseada em conteúdo, tende a especializar muito as recomendações em torno das características dos itens e, eventualmente, do utilizador ativo, uma vez que não tem em atenção os gostos dos restantes utilizadores do sistema. A filtragem colaborativa, essencialmente, tem a desvantagem do cold start, isto é, os problemas associados à admissão de novos utilizadores ou novos itens no sistema. Naturalmente que os inconvenientes de uma aproximação são as vantagens da outra e vice-versa. A Filtragem Híbrida combina as duas metodologias de forma a ultrapassar os seus inconvenientes podendo também seguir várias abordagens. No caso deste trabalho foi seguida uma abordagem weighted, permitindo uma combinação linear das filtragens colaborativas e baseada em conteúdo. Na avaliação experimental, os resultados obtidos foram relevantes em termos empíricos, coincidentes com os resultados apresentados em estudos semelhantes e validados com as métricas estatísticas MAE e RMSE. O protótipo de Sistema de Recomendação desenvolvido poderá evoluir para um sistema de recomendação de produção, sendo adaptável para outros conteúdos de aplicações web.
id RCAP_9cba4ca476d18afa133273db52129880
oai_identifier_str oai:repositorio.ipv.pt:10400.19/6725
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Sistemas de recomendação para conteúdos de aplicações webSistema de RecomendaçãoFiltragem ColaborativaFiltragem Baseada em ConteúdoFiltragem HíbridaMachine LearningData MiningBig DataAplicação webData ScienceTF-IDFNLPDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaGrandes volumes de dados, referidos como Big Data, são gerados diariamente a uma taxa sem precedentes, a partir de fontes heterogéneas (e.g., meio ambiente, saúde, governo, redes sociais, marketing, transações financeiras). As novas tendências tecnológicas atuais, incluindo a Internet das Coisas (IoT – Internet of Things), a proliferação da Cloud Computing e a massificação dos dispositivos inteligentes (e.g., smartphones, smartwatches, dispositivos pervasivos e ubíquos), têm contribuído para esta explosão de dados. Como infraestrutura de suporte têm-se sistemas e aplicações distribuídos(as), públicos(as) e privados(as), interligados por redes de comunicação eletrónica de banda larga e elevado desempenho, normalmente com interface web. Os Sistemas de Recomendação são sistemas que procuram facilitar a penosa atividade de busca por conteúdo de interesse no Big Data. As principais funções dos Sistemas de Recomendação são a análise das diversas ações do utilizador do sistema. Com essa análise é possível extrair informações úteis para futuras predições, fornecendo recomendações de diferentes itens (e.g., sugestões de músicas, filmes, conteúdos de comércio eletrónico). Existem diferentes variantes nos sistemas de recomendação, nomeadamente, sistemas de filtragem colaborativa de classificações (ratings), filtragem baseada em conteúdo dos itens (e.g., descrição, características) ou de filtragem híbrida (que combinam as duas aproximações anteriores), tendo todos por objetivo a seleção de conteúdos de interesse tendo em conta os padrões de consumo dos utilizadores. O trabalho desenvolvido consistiu na implementação e validação de um protótipo de um Sistema de Recomendação de Conteúdos de Aplicações web, aplicado à recomendação de filmes. Para tal, utilizaram-se os MovieLens Datasets offline de ratings disponibilizados, pelo GroupLens, bem como informação disponibilizada online pelo site do TMDb. O sistema desenvolvido aprende o padrão de consumo de conteúdos do utilizador, prevendo o que irá consumir no futuro com base nos itens similares aos que demonstrou interesse (classificou) no passado, bem como na similaridade com outros utilizadores (que constituem a sua vizinhança) e assim fornecer os respetivos conteúdos de interesse, permitindo criar um modelo de utilizador. Utilizaram-se as técnicas de Filtragem Baseada em Conteúdo, Filtragem Colaborativa e Filtragem Híbrida baseadas em memória. A Filtragem Baseada em Conteúdo permite através da análise das caraterísticas dos itens, essencialmente baseadas na metodologia TFIDF para o processamento de linguagem natural (NLP), extrair as características ou atributos fundamentais dos itens e selecionar itens semelhantes ou propor classificações previstas para os itens de interesse ainda não classificados pelo utilizador ativo. A Filtragem Colaborativa permite aplicar a metodologia kNN, para identificar a semelhança entre o utilizador ativo, situados na vizinhança e propor classificações previstas para itens de interesse ainda não classificados. Ambas as aproximações têm inconvenientes e vantagens. A filtragem baseada em conteúdo, tende a especializar muito as recomendações em torno das características dos itens e, eventualmente, do utilizador ativo, uma vez que não tem em atenção os gostos dos restantes utilizadores do sistema. A filtragem colaborativa, essencialmente, tem a desvantagem do cold start, isto é, os problemas associados à admissão de novos utilizadores ou novos itens no sistema. Naturalmente que os inconvenientes de uma aproximação são as vantagens da outra e vice-versa. A Filtragem Híbrida combina as duas metodologias de forma a ultrapassar os seus inconvenientes podendo também seguir várias abordagens. No caso deste trabalho foi seguida uma abordagem weighted, permitindo uma combinação linear das filtragens colaborativas e baseada em conteúdo. Na avaliação experimental, os resultados obtidos foram relevantes em termos empíricos, coincidentes com os resultados apresentados em estudos semelhantes e validados com as métricas estatísticas MAE e RMSE. O protótipo de Sistema de Recomendação desenvolvido poderá evoluir para um sistema de recomendação de produção, sendo adaptável para outros conteúdos de aplicações web.ABSTRACT: Large volumes of data, referred to as Big Data, are generated daily at an unprecedented rate, from heterogeneous sources (e.g., environment, health, government, social networks, marketing, financial transactions). Current new technological trends, including the Internet of Things (IoT), the proliferation of Cloud Computing and the smart devices generalization (e.g., smartphones, smartwatches, pervasive and ubiquitous devices), have contributed to this data explosion. As support infrastructure there are distributed, public and private systems and applications, interconnected by high-performance and high-performance electronic communication networks, usually with a web interface. Recommender Systems are systems that seek to facilitate the painful activity of searching for content of interest in Big Data. The main functions of the Recommendation Systems are the analysis of the various actions of the system user. With this analysis it is possible to extract useful information for future predictions, providing recommendations for different items (e.g., music suggestions, films, e-commerce content). There are different variants in the recommender systems, namely, ratings collaborative filtering systems, content-based filtering systems (e.g., items’ description or characteristics) or hybrid filtering (which combine the two previous approaches), all aiming at the selection of content of interest considering the consumption patterns of users. This work consisted of the implementation and validation of a prototype of a web Content Application Recommender System, applied to movies recommendation. To this end, we used the offline MovieLens Datasets of ratings made available by GroupLens, as well as information made available online by the TMDb website. The developed system learns the pattern of consumption of user content, predicting what it will consume in the future based on items like those it has shown interest in (rated) in the past, as well as similarity with other users (who constitute its neighborhood) and thus providing the respective contents of interest, allowing to create a user model. Memory-based Content-based filtering, collaborative filtering and hybrid filtering techniques were used. Content-Based Filtering allows, through the analysis of the characteristics of the items, essentially based on the TF-IDF methodology for natural language processing (NLP), to extract the fundamental characteristics or attributes of the items and select similar items or propose predicted ratings for the items of interest not yet classified by the active user. Collaborative Filtering allows applying the kNN methodology, to identify the neighborhood similarity to the active user, and to propose predicted ratings for items of interest not yet classified. Both approaches have problems and advantages. Content-based filtering tends to specialize the recommendations around the characteristics of the items and the active user, since it does not consider the tastes of the other users of the system. Collaborative filtering, essentially, has the disadvantage of cold start, that is, the problems associated with the admission of new users or new items in the system. Naturally, the drawbacks of one approach are the advantages of the other and vice versa. Hybrid Filtering combines the two methodologies to overcome its drawbacks and can also follow several approaches. In the case of this work, a weighted approach was followed, allowing a linear combination of collaborative and contentbased filtering. In the experimental evaluation, the results obtained were relevant in empirical terms, coinciding with the results presented in similar studies and validated with the statistical metrics MAE and RMSE. The developed Recommendation System prototype can evolve into a production recommender system, being adaptable to other web application content.Pinto, Filipe Marques da Silva CabralRepositório Científico do Instituto Politécnico de ViseuJerónimo, Margarida Isabel de Oliveira2021-04-19T11:07:47Z2021-03-102020-12-022021-03-10T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.19/6725TID:202697517porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-01-16T15:28:55Zoai:repositorio.ipv.pt:10400.19/6725Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T16:44:35.223349Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Sistemas de recomendação para conteúdos de aplicações web
title Sistemas de recomendação para conteúdos de aplicações web
spellingShingle Sistemas de recomendação para conteúdos de aplicações web
Jerónimo, Margarida Isabel de Oliveira
Sistema de Recomendação
Filtragem Colaborativa
Filtragem Baseada em Conteúdo
Filtragem Híbrida
Machine Learning
Data Mining
Big Data
Aplicação web
Data Science
TF-IDF
NLP
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Sistemas de recomendação para conteúdos de aplicações web
title_full Sistemas de recomendação para conteúdos de aplicações web
title_fullStr Sistemas de recomendação para conteúdos de aplicações web
title_full_unstemmed Sistemas de recomendação para conteúdos de aplicações web
title_sort Sistemas de recomendação para conteúdos de aplicações web
author Jerónimo, Margarida Isabel de Oliveira
author_facet Jerónimo, Margarida Isabel de Oliveira
author_role author
dc.contributor.none.fl_str_mv Pinto, Filipe Marques da Silva Cabral
Repositório Científico do Instituto Politécnico de Viseu
dc.contributor.author.fl_str_mv Jerónimo, Margarida Isabel de Oliveira
dc.subject.por.fl_str_mv Sistema de Recomendação
Filtragem Colaborativa
Filtragem Baseada em Conteúdo
Filtragem Híbrida
Machine Learning
Data Mining
Big Data
Aplicação web
Data Science
TF-IDF
NLP
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Sistema de Recomendação
Filtragem Colaborativa
Filtragem Baseada em Conteúdo
Filtragem Híbrida
Machine Learning
Data Mining
Big Data
Aplicação web
Data Science
TF-IDF
NLP
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Grandes volumes de dados, referidos como Big Data, são gerados diariamente a uma taxa sem precedentes, a partir de fontes heterogéneas (e.g., meio ambiente, saúde, governo, redes sociais, marketing, transações financeiras). As novas tendências tecnológicas atuais, incluindo a Internet das Coisas (IoT – Internet of Things), a proliferação da Cloud Computing e a massificação dos dispositivos inteligentes (e.g., smartphones, smartwatches, dispositivos pervasivos e ubíquos), têm contribuído para esta explosão de dados. Como infraestrutura de suporte têm-se sistemas e aplicações distribuídos(as), públicos(as) e privados(as), interligados por redes de comunicação eletrónica de banda larga e elevado desempenho, normalmente com interface web. Os Sistemas de Recomendação são sistemas que procuram facilitar a penosa atividade de busca por conteúdo de interesse no Big Data. As principais funções dos Sistemas de Recomendação são a análise das diversas ações do utilizador do sistema. Com essa análise é possível extrair informações úteis para futuras predições, fornecendo recomendações de diferentes itens (e.g., sugestões de músicas, filmes, conteúdos de comércio eletrónico). Existem diferentes variantes nos sistemas de recomendação, nomeadamente, sistemas de filtragem colaborativa de classificações (ratings), filtragem baseada em conteúdo dos itens (e.g., descrição, características) ou de filtragem híbrida (que combinam as duas aproximações anteriores), tendo todos por objetivo a seleção de conteúdos de interesse tendo em conta os padrões de consumo dos utilizadores. O trabalho desenvolvido consistiu na implementação e validação de um protótipo de um Sistema de Recomendação de Conteúdos de Aplicações web, aplicado à recomendação de filmes. Para tal, utilizaram-se os MovieLens Datasets offline de ratings disponibilizados, pelo GroupLens, bem como informação disponibilizada online pelo site do TMDb. O sistema desenvolvido aprende o padrão de consumo de conteúdos do utilizador, prevendo o que irá consumir no futuro com base nos itens similares aos que demonstrou interesse (classificou) no passado, bem como na similaridade com outros utilizadores (que constituem a sua vizinhança) e assim fornecer os respetivos conteúdos de interesse, permitindo criar um modelo de utilizador. Utilizaram-se as técnicas de Filtragem Baseada em Conteúdo, Filtragem Colaborativa e Filtragem Híbrida baseadas em memória. A Filtragem Baseada em Conteúdo permite através da análise das caraterísticas dos itens, essencialmente baseadas na metodologia TFIDF para o processamento de linguagem natural (NLP), extrair as características ou atributos fundamentais dos itens e selecionar itens semelhantes ou propor classificações previstas para os itens de interesse ainda não classificados pelo utilizador ativo. A Filtragem Colaborativa permite aplicar a metodologia kNN, para identificar a semelhança entre o utilizador ativo, situados na vizinhança e propor classificações previstas para itens de interesse ainda não classificados. Ambas as aproximações têm inconvenientes e vantagens. A filtragem baseada em conteúdo, tende a especializar muito as recomendações em torno das características dos itens e, eventualmente, do utilizador ativo, uma vez que não tem em atenção os gostos dos restantes utilizadores do sistema. A filtragem colaborativa, essencialmente, tem a desvantagem do cold start, isto é, os problemas associados à admissão de novos utilizadores ou novos itens no sistema. Naturalmente que os inconvenientes de uma aproximação são as vantagens da outra e vice-versa. A Filtragem Híbrida combina as duas metodologias de forma a ultrapassar os seus inconvenientes podendo também seguir várias abordagens. No caso deste trabalho foi seguida uma abordagem weighted, permitindo uma combinação linear das filtragens colaborativas e baseada em conteúdo. Na avaliação experimental, os resultados obtidos foram relevantes em termos empíricos, coincidentes com os resultados apresentados em estudos semelhantes e validados com as métricas estatísticas MAE e RMSE. O protótipo de Sistema de Recomendação desenvolvido poderá evoluir para um sistema de recomendação de produção, sendo adaptável para outros conteúdos de aplicações web.
publishDate 2020
dc.date.none.fl_str_mv 2020-12-02
2021-04-19T11:07:47Z
2021-03-10
2021-03-10T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.19/6725
TID:202697517
url http://hdl.handle.net/10400.19/6725
identifier_str_mv TID:202697517
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799130916690329600