Sistemas de recomendação para conteúdos de aplicações web
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.19/6725 |
Resumo: | Grandes volumes de dados, referidos como Big Data, são gerados diariamente a uma taxa sem precedentes, a partir de fontes heterogéneas (e.g., meio ambiente, saúde, governo, redes sociais, marketing, transações financeiras). As novas tendências tecnológicas atuais, incluindo a Internet das Coisas (IoT – Internet of Things), a proliferação da Cloud Computing e a massificação dos dispositivos inteligentes (e.g., smartphones, smartwatches, dispositivos pervasivos e ubíquos), têm contribuído para esta explosão de dados. Como infraestrutura de suporte têm-se sistemas e aplicações distribuídos(as), públicos(as) e privados(as), interligados por redes de comunicação eletrónica de banda larga e elevado desempenho, normalmente com interface web. Os Sistemas de Recomendação são sistemas que procuram facilitar a penosa atividade de busca por conteúdo de interesse no Big Data. As principais funções dos Sistemas de Recomendação são a análise das diversas ações do utilizador do sistema. Com essa análise é possível extrair informações úteis para futuras predições, fornecendo recomendações de diferentes itens (e.g., sugestões de músicas, filmes, conteúdos de comércio eletrónico). Existem diferentes variantes nos sistemas de recomendação, nomeadamente, sistemas de filtragem colaborativa de classificações (ratings), filtragem baseada em conteúdo dos itens (e.g., descrição, características) ou de filtragem híbrida (que combinam as duas aproximações anteriores), tendo todos por objetivo a seleção de conteúdos de interesse tendo em conta os padrões de consumo dos utilizadores. O trabalho desenvolvido consistiu na implementação e validação de um protótipo de um Sistema de Recomendação de Conteúdos de Aplicações web, aplicado à recomendação de filmes. Para tal, utilizaram-se os MovieLens Datasets offline de ratings disponibilizados, pelo GroupLens, bem como informação disponibilizada online pelo site do TMDb. O sistema desenvolvido aprende o padrão de consumo de conteúdos do utilizador, prevendo o que irá consumir no futuro com base nos itens similares aos que demonstrou interesse (classificou) no passado, bem como na similaridade com outros utilizadores (que constituem a sua vizinhança) e assim fornecer os respetivos conteúdos de interesse, permitindo criar um modelo de utilizador. Utilizaram-se as técnicas de Filtragem Baseada em Conteúdo, Filtragem Colaborativa e Filtragem Híbrida baseadas em memória. A Filtragem Baseada em Conteúdo permite através da análise das caraterísticas dos itens, essencialmente baseadas na metodologia TFIDF para o processamento de linguagem natural (NLP), extrair as características ou atributos fundamentais dos itens e selecionar itens semelhantes ou propor classificações previstas para os itens de interesse ainda não classificados pelo utilizador ativo. A Filtragem Colaborativa permite aplicar a metodologia kNN, para identificar a semelhança entre o utilizador ativo, situados na vizinhança e propor classificações previstas para itens de interesse ainda não classificados. Ambas as aproximações têm inconvenientes e vantagens. A filtragem baseada em conteúdo, tende a especializar muito as recomendações em torno das características dos itens e, eventualmente, do utilizador ativo, uma vez que não tem em atenção os gostos dos restantes utilizadores do sistema. A filtragem colaborativa, essencialmente, tem a desvantagem do cold start, isto é, os problemas associados à admissão de novos utilizadores ou novos itens no sistema. Naturalmente que os inconvenientes de uma aproximação são as vantagens da outra e vice-versa. A Filtragem Híbrida combina as duas metodologias de forma a ultrapassar os seus inconvenientes podendo também seguir várias abordagens. No caso deste trabalho foi seguida uma abordagem weighted, permitindo uma combinação linear das filtragens colaborativas e baseada em conteúdo. Na avaliação experimental, os resultados obtidos foram relevantes em termos empíricos, coincidentes com os resultados apresentados em estudos semelhantes e validados com as métricas estatísticas MAE e RMSE. O protótipo de Sistema de Recomendação desenvolvido poderá evoluir para um sistema de recomendação de produção, sendo adaptável para outros conteúdos de aplicações web. |
id |
RCAP_9cba4ca476d18afa133273db52129880 |
---|---|
oai_identifier_str |
oai:repositorio.ipv.pt:10400.19/6725 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Sistemas de recomendação para conteúdos de aplicações webSistema de RecomendaçãoFiltragem ColaborativaFiltragem Baseada em ConteúdoFiltragem HíbridaMachine LearningData MiningBig DataAplicação webData ScienceTF-IDFNLPDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaGrandes volumes de dados, referidos como Big Data, são gerados diariamente a uma taxa sem precedentes, a partir de fontes heterogéneas (e.g., meio ambiente, saúde, governo, redes sociais, marketing, transações financeiras). As novas tendências tecnológicas atuais, incluindo a Internet das Coisas (IoT – Internet of Things), a proliferação da Cloud Computing e a massificação dos dispositivos inteligentes (e.g., smartphones, smartwatches, dispositivos pervasivos e ubíquos), têm contribuído para esta explosão de dados. Como infraestrutura de suporte têm-se sistemas e aplicações distribuídos(as), públicos(as) e privados(as), interligados por redes de comunicação eletrónica de banda larga e elevado desempenho, normalmente com interface web. Os Sistemas de Recomendação são sistemas que procuram facilitar a penosa atividade de busca por conteúdo de interesse no Big Data. As principais funções dos Sistemas de Recomendação são a análise das diversas ações do utilizador do sistema. Com essa análise é possível extrair informações úteis para futuras predições, fornecendo recomendações de diferentes itens (e.g., sugestões de músicas, filmes, conteúdos de comércio eletrónico). Existem diferentes variantes nos sistemas de recomendação, nomeadamente, sistemas de filtragem colaborativa de classificações (ratings), filtragem baseada em conteúdo dos itens (e.g., descrição, características) ou de filtragem híbrida (que combinam as duas aproximações anteriores), tendo todos por objetivo a seleção de conteúdos de interesse tendo em conta os padrões de consumo dos utilizadores. O trabalho desenvolvido consistiu na implementação e validação de um protótipo de um Sistema de Recomendação de Conteúdos de Aplicações web, aplicado à recomendação de filmes. Para tal, utilizaram-se os MovieLens Datasets offline de ratings disponibilizados, pelo GroupLens, bem como informação disponibilizada online pelo site do TMDb. O sistema desenvolvido aprende o padrão de consumo de conteúdos do utilizador, prevendo o que irá consumir no futuro com base nos itens similares aos que demonstrou interesse (classificou) no passado, bem como na similaridade com outros utilizadores (que constituem a sua vizinhança) e assim fornecer os respetivos conteúdos de interesse, permitindo criar um modelo de utilizador. Utilizaram-se as técnicas de Filtragem Baseada em Conteúdo, Filtragem Colaborativa e Filtragem Híbrida baseadas em memória. A Filtragem Baseada em Conteúdo permite através da análise das caraterísticas dos itens, essencialmente baseadas na metodologia TFIDF para o processamento de linguagem natural (NLP), extrair as características ou atributos fundamentais dos itens e selecionar itens semelhantes ou propor classificações previstas para os itens de interesse ainda não classificados pelo utilizador ativo. A Filtragem Colaborativa permite aplicar a metodologia kNN, para identificar a semelhança entre o utilizador ativo, situados na vizinhança e propor classificações previstas para itens de interesse ainda não classificados. Ambas as aproximações têm inconvenientes e vantagens. A filtragem baseada em conteúdo, tende a especializar muito as recomendações em torno das características dos itens e, eventualmente, do utilizador ativo, uma vez que não tem em atenção os gostos dos restantes utilizadores do sistema. A filtragem colaborativa, essencialmente, tem a desvantagem do cold start, isto é, os problemas associados à admissão de novos utilizadores ou novos itens no sistema. Naturalmente que os inconvenientes de uma aproximação são as vantagens da outra e vice-versa. A Filtragem Híbrida combina as duas metodologias de forma a ultrapassar os seus inconvenientes podendo também seguir várias abordagens. No caso deste trabalho foi seguida uma abordagem weighted, permitindo uma combinação linear das filtragens colaborativas e baseada em conteúdo. Na avaliação experimental, os resultados obtidos foram relevantes em termos empíricos, coincidentes com os resultados apresentados em estudos semelhantes e validados com as métricas estatísticas MAE e RMSE. O protótipo de Sistema de Recomendação desenvolvido poderá evoluir para um sistema de recomendação de produção, sendo adaptável para outros conteúdos de aplicações web.ABSTRACT: Large volumes of data, referred to as Big Data, are generated daily at an unprecedented rate, from heterogeneous sources (e.g., environment, health, government, social networks, marketing, financial transactions). Current new technological trends, including the Internet of Things (IoT), the proliferation of Cloud Computing and the smart devices generalization (e.g., smartphones, smartwatches, pervasive and ubiquitous devices), have contributed to this data explosion. As support infrastructure there are distributed, public and private systems and applications, interconnected by high-performance and high-performance electronic communication networks, usually with a web interface. Recommender Systems are systems that seek to facilitate the painful activity of searching for content of interest in Big Data. The main functions of the Recommendation Systems are the analysis of the various actions of the system user. With this analysis it is possible to extract useful information for future predictions, providing recommendations for different items (e.g., music suggestions, films, e-commerce content). There are different variants in the recommender systems, namely, ratings collaborative filtering systems, content-based filtering systems (e.g., items’ description or characteristics) or hybrid filtering (which combine the two previous approaches), all aiming at the selection of content of interest considering the consumption patterns of users. This work consisted of the implementation and validation of a prototype of a web Content Application Recommender System, applied to movies recommendation. To this end, we used the offline MovieLens Datasets of ratings made available by GroupLens, as well as information made available online by the TMDb website. The developed system learns the pattern of consumption of user content, predicting what it will consume in the future based on items like those it has shown interest in (rated) in the past, as well as similarity with other users (who constitute its neighborhood) and thus providing the respective contents of interest, allowing to create a user model. Memory-based Content-based filtering, collaborative filtering and hybrid filtering techniques were used. Content-Based Filtering allows, through the analysis of the characteristics of the items, essentially based on the TF-IDF methodology for natural language processing (NLP), to extract the fundamental characteristics or attributes of the items and select similar items or propose predicted ratings for the items of interest not yet classified by the active user. Collaborative Filtering allows applying the kNN methodology, to identify the neighborhood similarity to the active user, and to propose predicted ratings for items of interest not yet classified. Both approaches have problems and advantages. Content-based filtering tends to specialize the recommendations around the characteristics of the items and the active user, since it does not consider the tastes of the other users of the system. Collaborative filtering, essentially, has the disadvantage of cold start, that is, the problems associated with the admission of new users or new items in the system. Naturally, the drawbacks of one approach are the advantages of the other and vice versa. Hybrid Filtering combines the two methodologies to overcome its drawbacks and can also follow several approaches. In the case of this work, a weighted approach was followed, allowing a linear combination of collaborative and contentbased filtering. In the experimental evaluation, the results obtained were relevant in empirical terms, coinciding with the results presented in similar studies and validated with the statistical metrics MAE and RMSE. The developed Recommendation System prototype can evolve into a production recommender system, being adaptable to other web application content.Pinto, Filipe Marques da Silva CabralRepositório Científico do Instituto Politécnico de ViseuJerónimo, Margarida Isabel de Oliveira2021-04-19T11:07:47Z2021-03-102020-12-022021-03-10T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.19/6725TID:202697517porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-01-16T15:28:55Zoai:repositorio.ipv.pt:10400.19/6725Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T16:44:35.223349Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Sistemas de recomendação para conteúdos de aplicações web |
title |
Sistemas de recomendação para conteúdos de aplicações web |
spellingShingle |
Sistemas de recomendação para conteúdos de aplicações web Jerónimo, Margarida Isabel de Oliveira Sistema de Recomendação Filtragem Colaborativa Filtragem Baseada em Conteúdo Filtragem Híbrida Machine Learning Data Mining Big Data Aplicação web Data Science TF-IDF NLP Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
title_short |
Sistemas de recomendação para conteúdos de aplicações web |
title_full |
Sistemas de recomendação para conteúdos de aplicações web |
title_fullStr |
Sistemas de recomendação para conteúdos de aplicações web |
title_full_unstemmed |
Sistemas de recomendação para conteúdos de aplicações web |
title_sort |
Sistemas de recomendação para conteúdos de aplicações web |
author |
Jerónimo, Margarida Isabel de Oliveira |
author_facet |
Jerónimo, Margarida Isabel de Oliveira |
author_role |
author |
dc.contributor.none.fl_str_mv |
Pinto, Filipe Marques da Silva Cabral Repositório Científico do Instituto Politécnico de Viseu |
dc.contributor.author.fl_str_mv |
Jerónimo, Margarida Isabel de Oliveira |
dc.subject.por.fl_str_mv |
Sistema de Recomendação Filtragem Colaborativa Filtragem Baseada em Conteúdo Filtragem Híbrida Machine Learning Data Mining Big Data Aplicação web Data Science TF-IDF NLP Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
topic |
Sistema de Recomendação Filtragem Colaborativa Filtragem Baseada em Conteúdo Filtragem Híbrida Machine Learning Data Mining Big Data Aplicação web Data Science TF-IDF NLP Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
description |
Grandes volumes de dados, referidos como Big Data, são gerados diariamente a uma taxa sem precedentes, a partir de fontes heterogéneas (e.g., meio ambiente, saúde, governo, redes sociais, marketing, transações financeiras). As novas tendências tecnológicas atuais, incluindo a Internet das Coisas (IoT – Internet of Things), a proliferação da Cloud Computing e a massificação dos dispositivos inteligentes (e.g., smartphones, smartwatches, dispositivos pervasivos e ubíquos), têm contribuído para esta explosão de dados. Como infraestrutura de suporte têm-se sistemas e aplicações distribuídos(as), públicos(as) e privados(as), interligados por redes de comunicação eletrónica de banda larga e elevado desempenho, normalmente com interface web. Os Sistemas de Recomendação são sistemas que procuram facilitar a penosa atividade de busca por conteúdo de interesse no Big Data. As principais funções dos Sistemas de Recomendação são a análise das diversas ações do utilizador do sistema. Com essa análise é possível extrair informações úteis para futuras predições, fornecendo recomendações de diferentes itens (e.g., sugestões de músicas, filmes, conteúdos de comércio eletrónico). Existem diferentes variantes nos sistemas de recomendação, nomeadamente, sistemas de filtragem colaborativa de classificações (ratings), filtragem baseada em conteúdo dos itens (e.g., descrição, características) ou de filtragem híbrida (que combinam as duas aproximações anteriores), tendo todos por objetivo a seleção de conteúdos de interesse tendo em conta os padrões de consumo dos utilizadores. O trabalho desenvolvido consistiu na implementação e validação de um protótipo de um Sistema de Recomendação de Conteúdos de Aplicações web, aplicado à recomendação de filmes. Para tal, utilizaram-se os MovieLens Datasets offline de ratings disponibilizados, pelo GroupLens, bem como informação disponibilizada online pelo site do TMDb. O sistema desenvolvido aprende o padrão de consumo de conteúdos do utilizador, prevendo o que irá consumir no futuro com base nos itens similares aos que demonstrou interesse (classificou) no passado, bem como na similaridade com outros utilizadores (que constituem a sua vizinhança) e assim fornecer os respetivos conteúdos de interesse, permitindo criar um modelo de utilizador. Utilizaram-se as técnicas de Filtragem Baseada em Conteúdo, Filtragem Colaborativa e Filtragem Híbrida baseadas em memória. A Filtragem Baseada em Conteúdo permite através da análise das caraterísticas dos itens, essencialmente baseadas na metodologia TFIDF para o processamento de linguagem natural (NLP), extrair as características ou atributos fundamentais dos itens e selecionar itens semelhantes ou propor classificações previstas para os itens de interesse ainda não classificados pelo utilizador ativo. A Filtragem Colaborativa permite aplicar a metodologia kNN, para identificar a semelhança entre o utilizador ativo, situados na vizinhança e propor classificações previstas para itens de interesse ainda não classificados. Ambas as aproximações têm inconvenientes e vantagens. A filtragem baseada em conteúdo, tende a especializar muito as recomendações em torno das características dos itens e, eventualmente, do utilizador ativo, uma vez que não tem em atenção os gostos dos restantes utilizadores do sistema. A filtragem colaborativa, essencialmente, tem a desvantagem do cold start, isto é, os problemas associados à admissão de novos utilizadores ou novos itens no sistema. Naturalmente que os inconvenientes de uma aproximação são as vantagens da outra e vice-versa. A Filtragem Híbrida combina as duas metodologias de forma a ultrapassar os seus inconvenientes podendo também seguir várias abordagens. No caso deste trabalho foi seguida uma abordagem weighted, permitindo uma combinação linear das filtragens colaborativas e baseada em conteúdo. Na avaliação experimental, os resultados obtidos foram relevantes em termos empíricos, coincidentes com os resultados apresentados em estudos semelhantes e validados com as métricas estatísticas MAE e RMSE. O protótipo de Sistema de Recomendação desenvolvido poderá evoluir para um sistema de recomendação de produção, sendo adaptável para outros conteúdos de aplicações web. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-12-02 2021-04-19T11:07:47Z 2021-03-10 2021-03-10T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.19/6725 TID:202697517 |
url |
http://hdl.handle.net/10400.19/6725 |
identifier_str_mv |
TID:202697517 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799130916690329600 |