Sistemas de recomendação para conteúdos de aplicações web

Jerónimo, Margarida Isabel de Oliveira

Sistemas de recomendação para conteúdos de aplicações web

Detalhes bibliográficos
Autor(a) principal:	Jerónimo, Margarida Isabel de Oliveira
Data de Publicação:	2020
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10400.19/6725
Resumo:	Grandes volumes de dados, referidos como Big Data, são gerados diariamente a uma taxa sem precedentes, a partir de fontes heterogéneas (e.g., meio ambiente, saúde, governo, redes sociais, marketing, transações financeiras). As novas tendências tecnológicas atuais, incluindo a Internet das Coisas (IoT – Internet of Things), a proliferação da Cloud Computing e a massificação dos dispositivos inteligentes (e.g., smartphones, smartwatches, dispositivos pervasivos e ubíquos), têm contribuído para esta explosão de dados. Como infraestrutura de suporte têm-se sistemas e aplicações distribuídos(as), públicos(as) e privados(as), interligados por redes de comunicação eletrónica de banda larga e elevado desempenho, normalmente com interface web. Os Sistemas de Recomendação são sistemas que procuram facilitar a penosa atividade de busca por conteúdo de interesse no Big Data. As principais funções dos Sistemas de Recomendação são a análise das diversas ações do utilizador do sistema. Com essa análise é possível extrair informações úteis para futuras predições, fornecendo recomendações de diferentes itens (e.g., sugestões de músicas, filmes, conteúdos de comércio eletrónico). Existem diferentes variantes nos sistemas de recomendação, nomeadamente, sistemas de filtragem colaborativa de classificações (ratings), filtragem baseada em conteúdo dos itens (e.g., descrição, características) ou de filtragem híbrida (que combinam as duas aproximações anteriores), tendo todos por objetivo a seleção de conteúdos de interesse tendo em conta os padrões de consumo dos utilizadores. O trabalho desenvolvido consistiu na implementação e validação de um protótipo de um Sistema de Recomendação de Conteúdos de Aplicações web, aplicado à recomendação de filmes. Para tal, utilizaram-se os MovieLens Datasets offline de ratings disponibilizados, pelo GroupLens, bem como informação disponibilizada online pelo site do TMDb. O sistema desenvolvido aprende o padrão de consumo de conteúdos do utilizador, prevendo o que irá consumir no futuro com base nos itens similares aos que demonstrou interesse (classificou) no passado, bem como na similaridade com outros utilizadores (que constituem a sua vizinhança) e assim fornecer os respetivos conteúdos de interesse, permitindo criar um modelo de utilizador. Utilizaram-se as técnicas de Filtragem Baseada em Conteúdo, Filtragem Colaborativa e Filtragem Híbrida baseadas em memória. A Filtragem Baseada em Conteúdo permite através da análise das caraterísticas dos itens, essencialmente baseadas na metodologia TFIDF para o processamento de linguagem natural (NLP), extrair as características ou atributos fundamentais dos itens e selecionar itens semelhantes ou propor classificações previstas para os itens de interesse ainda não classificados pelo utilizador ativo. A Filtragem Colaborativa permite aplicar a metodologia kNN, para identificar a semelhança entre o utilizador ativo, situados na vizinhança e propor classificações previstas para itens de interesse ainda não classificados. Ambas as aproximações têm inconvenientes e vantagens. A filtragem baseada em conteúdo, tende a especializar muito as recomendações em torno das características dos itens e, eventualmente, do utilizador ativo, uma vez que não tem em atenção os gostos dos restantes utilizadores do sistema. A filtragem colaborativa, essencialmente, tem a desvantagem do cold start, isto é, os problemas associados à admissão de novos utilizadores ou novos itens no sistema. Naturalmente que os inconvenientes de uma aproximação são as vantagens da outra e vice-versa. A Filtragem Híbrida combina as duas metodologias de forma a ultrapassar os seus inconvenientes podendo também seguir várias abordagens. No caso deste trabalho foi seguida uma abordagem weighted, permitindo uma combinação linear das filtragens colaborativas e baseada em conteúdo. Na avaliação experimental, os resultados obtidos foram relevantes em termos empíricos, coincidentes com os resultados apresentados em estudos semelhantes e validados com as métricas estatísticas MAE e RMSE. O protótipo de Sistema de Recomendação desenvolvido poderá evoluir para um sistema de recomendação de produção, sendo adaptável para outros conteúdos de aplicações web.

Metadados do item

id	RCAP_9cba4ca476d18afa133273db52129880
oai_identifier_str	oai:repositorio.ipv.pt:10400.19/6725
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Sistemas de recomendação para conteúdos de aplicações webSistema de RecomendaçãoFiltragem ColaborativaFiltragem Baseada em ConteúdoFiltragem HíbridaMachine LearningData MiningBig DataAplicação webData ScienceTF-IDFNLPDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaGrandes volumes de dados, referidos como Big Data, são gerados diariamente a uma taxa sem precedentes, a partir de fontes heterogéneas (e.g., meio ambiente, saúde, governo, redes sociais, marketing, transações financeiras). As novas tendências tecnológicas atuais, incluindo a Internet das Coisas (IoT – Internet of Things), a proliferação da Cloud Computing e a massificação dos dispositivos inteligentes (e.g., smartphones, smartwatches, dispositivos pervasivos e ubíquos), têm contribuído para esta explosão de dados. Como infraestrutura de suporte têm-se sistemas e aplicações distribuídos(as), públicos(as) e privados(as), interligados por redes de comunicação eletrónica de banda larga e elevado desempenho, normalmente com interface web. Os Sistemas de Recomendação são sistemas que procuram facilitar a penosa atividade de busca por conteúdo de interesse no Big Data. As principais funções dos Sistemas de Recomendação são a análise das diversas ações do utilizador do sistema. Com essa análise é possível extrair informações úteis para futuras predições, fornecendo recomendações de diferentes itens (e.g., sugestões de músicas, filmes, conteúdos de comércio eletrónico). Existem diferentes variantes nos sistemas de recomendação, nomeadamente, sistemas de filtragem colaborativa de classificações (ratings), filtragem baseada em conteúdo dos itens (e.g., descrição, características) ou de filtragem híbrida (que combinam as duas aproximações anteriores), tendo todos por objetivo a seleção de conteúdos de interesse tendo em conta os padrões de consumo dos utilizadores. O trabalho desenvolvido consistiu na implementação e validação de um protótipo de um Sistema de Recomendação de Conteúdos de Aplicações web, aplicado à recomendação de filmes. Para tal, utilizaram-se os MovieLens Datasets offline de ratings disponibilizados, pelo GroupLens, bem como informação disponibilizada online pelo site do TMDb. O sistema desenvolvido aprende o padrão de consumo de conteúdos do utilizador, prevendo o que irá consumir no futuro com base nos itens similares aos que demonstrou interesse (classificou) no passado, bem como na similaridade com outros utilizadores (que constituem a sua vizinhança) e assim fornecer os respetivos conteúdos de interesse, permitindo criar um modelo de utilizador. Utilizaram-se as técnicas de Filtragem Baseada em Conteúdo, Filtragem Colaborativa e Filtragem Híbrida baseadas em memória. A Filtragem Baseada em Conteúdo permite através da análise das caraterísticas dos itens, essencialmente baseadas na metodologia TFIDF para o processamento de linguagem natural (NLP), extrair as características ou atributos fundamentais dos itens e selecionar itens semelhantes ou propor classificações previstas para os itens de interesse ainda não classificados pelo utilizador ativo. A Filtragem Colaborativa permite aplicar a metodologia kNN, para identificar a semelhança entre o utilizador ativo, situados na vizinhança e propor classificações previstas para itens de interesse ainda não classificados. Ambas as aproximações têm inconvenientes e vantagens. A filtragem baseada em conteúdo, tende a especializar muito as recomendações em torno das características dos itens e, eventualmente, do utilizador ativo, uma vez que não tem em atenção os gostos dos restantes utilizadores do sistema. A filtragem colaborativa, essencialmente, tem a desvantagem do cold start, isto é, os problemas associados à admissão de novos utilizadores ou novos itens no sistema. Naturalmente que os inconvenientes de uma aproximação são as vantagens da outra e vice-versa. A Filtragem Híbrida combina as duas metodologias de forma a ultrapassar os seus inconvenientes podendo também seguir várias abordagens. No caso deste trabalho foi seguida uma abordagem weighted, permitindo uma combinação linear das filtragens colaborativas e baseada em conteúdo. Na avaliação experimental, os resultados obtidos foram relevantes em termos empíricos, coincidentes com os resultados apresentados em estudos semelhantes e validados com as métricas estatísticas MAE e RMSE. O protótipo de Sistema de Recomendação desenvolvido poderá evoluir para um sistema de recomendação de produção, sendo adaptável para outros conteúdos de aplicações web.ABSTRACT: Large volumes of data, referred to as Big Data, are generated daily at an unprecedented rate, from heterogeneous sources (e.g., environment, health, government, social networks, marketing, financial transactions). Current new technological trends, including the Internet of Things (IoT), the proliferation of Cloud Computing and the smart devices generalization (e.g., smartphones, smartwatches, pervasive and ubiquitous devices), have contributed to this data explosion. As support infrastructure there are distributed, public and private systems and applications, interconnected by high-performance and high-performance electronic communication networks, usually with a web interface. Recommender Systems are systems that seek to facilitate the painful activity of searching for content of interest in Big Data. The main functions of the Recommendation Systems are the analysis of the various actions of the system user. With this analysis it is possible to extract useful information for future predictions, providing recommendations for different items (e.g., music suggestions, films, e-commerce content). There are different variants in the recommender systems, namely, ratings collaborative filtering systems, content-based filtering systems (e.g., items’ description or characteristics) or hybrid filtering (which combine the two previous approaches), all aiming at the selection of content of interest considering the consumption patterns of users. This work consisted of the implementation and validation of a prototype of a web Content Application Recommender System, applied to movies recommendation. To this end, we used the offline MovieLens Datasets of ratings made available by GroupLens, as well as information made available online by the TMDb website. The developed system learns the pattern of consumption of user content, predicting what it will consume in the future based on items like those it has shown interest in (rated) in the past, as well as similarity with other users (who constitute its neighborhood) and thus providing the respective contents of interest, allowing to create a user model. Memory-based Content-based filtering, collaborative filtering and hybrid filtering techniques were used. Content-Based Filtering allows, through the analysis of the characteristics of the items, essentially based on the TF-IDF methodology for natural language processing (NLP), to extract the fundamental characteristics or attributes of the items and select similar items or propose predicted ratings for the items of interest not yet classified by the active user. Collaborative Filtering allows applying the kNN methodology, to identify the neighborhood similarity to the active user, and to propose predicted ratings for items of interest not yet classified. Both approaches have problems and advantages. Content-based filtering tends to specialize the recommendations around the characteristics of the items and the active user, since it does not consider the tastes of the other users of the system. Collaborative filtering, essentially, has the disadvantage of cold start, that is, the problems associated with the admission of new users or new items in the system. Naturally, the drawbacks of one approach are the advantages of the other and vice versa. Hybrid Filtering combines the two methodologies to overcome its drawbacks and can also follow several approaches. In the case of this work, a weighted approach was followed, allowing a linear combination of collaborative and contentbased filtering. In the experimental evaluation, the results obtained were relevant in empirical terms, coinciding with the results presented in similar studies and validated with the statistical metrics MAE and RMSE. The developed Recommendation System prototype can evolve into a production recommender system, being adaptable to other web application content.Pinto, Filipe Marques da Silva CabralRepositório Científico do Instituto Politécnico de ViseuJerónimo, Margarida Isabel de Oliveira2021-04-19T11:07:47Z2021-03-102020-12-022021-03-10T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.19/6725TID:202697517porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-01-16T15:28:55Zoai:repositorio.ipv.pt:10400.19/6725Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T16:44:35.223349Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Sistemas de recomendação para conteúdos de aplicações web
title	Sistemas de recomendação para conteúdos de aplicações web
spellingShingle	Sistemas de recomendação para conteúdos de aplicações web Jerónimo, Margarida Isabel de Oliveira Sistema de Recomendação Filtragem Colaborativa Filtragem Baseada em Conteúdo Filtragem Híbrida Machine Learning Data Mining Big Data Aplicação web Data Science TF-IDF NLP Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short	Sistemas de recomendação para conteúdos de aplicações web
title_full	Sistemas de recomendação para conteúdos de aplicações web
title_fullStr	Sistemas de recomendação para conteúdos de aplicações web
title_full_unstemmed	Sistemas de recomendação para conteúdos de aplicações web
title_sort	Sistemas de recomendação para conteúdos de aplicações web
author	Jerónimo, Margarida Isabel de Oliveira
author_facet	Jerónimo, Margarida Isabel de Oliveira
author_role	author
dc.contributor.none.fl_str_mv	Pinto, Filipe Marques da Silva Cabral Repositório Científico do Instituto Politécnico de Viseu
dc.contributor.author.fl_str_mv	Jerónimo, Margarida Isabel de Oliveira
dc.subject.por.fl_str_mv	Sistema de Recomendação Filtragem Colaborativa Filtragem Baseada em Conteúdo Filtragem Híbrida Machine Learning Data Mining Big Data Aplicação web Data Science TF-IDF NLP Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic	Sistema de Recomendação Filtragem Colaborativa Filtragem Baseada em Conteúdo Filtragem Híbrida Machine Learning Data Mining Big Data Aplicação web Data Science TF-IDF NLP Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description	Grandes volumes de dados, referidos como Big Data, são gerados diariamente a uma taxa sem precedentes, a partir de fontes heterogéneas (e.g., meio ambiente, saúde, governo, redes sociais, marketing, transações financeiras). As novas tendências tecnológicas atuais, incluindo a Internet das Coisas (IoT – Internet of Things), a proliferação da Cloud Computing e a massificação dos dispositivos inteligentes (e.g., smartphones, smartwatches, dispositivos pervasivos e ubíquos), têm contribuído para esta explosão de dados. Como infraestrutura de suporte têm-se sistemas e aplicações distribuídos(as), públicos(as) e privados(as), interligados por redes de comunicação eletrónica de banda larga e elevado desempenho, normalmente com interface web. Os Sistemas de Recomendação são sistemas que procuram facilitar a penosa atividade de busca por conteúdo de interesse no Big Data. As principais funções dos Sistemas de Recomendação são a análise das diversas ações do utilizador do sistema. Com essa análise é possível extrair informações úteis para futuras predições, fornecendo recomendações de diferentes itens (e.g., sugestões de músicas, filmes, conteúdos de comércio eletrónico). Existem diferentes variantes nos sistemas de recomendação, nomeadamente, sistemas de filtragem colaborativa de classificações (ratings), filtragem baseada em conteúdo dos itens (e.g., descrição, características) ou de filtragem híbrida (que combinam as duas aproximações anteriores), tendo todos por objetivo a seleção de conteúdos de interesse tendo em conta os padrões de consumo dos utilizadores. O trabalho desenvolvido consistiu na implementação e validação de um protótipo de um Sistema de Recomendação de Conteúdos de Aplicações web, aplicado à recomendação de filmes. Para tal, utilizaram-se os MovieLens Datasets offline de ratings disponibilizados, pelo GroupLens, bem como informação disponibilizada online pelo site do TMDb. O sistema desenvolvido aprende o padrão de consumo de conteúdos do utilizador, prevendo o que irá consumir no futuro com base nos itens similares aos que demonstrou interesse (classificou) no passado, bem como na similaridade com outros utilizadores (que constituem a sua vizinhança) e assim fornecer os respetivos conteúdos de interesse, permitindo criar um modelo de utilizador. Utilizaram-se as técnicas de Filtragem Baseada em Conteúdo, Filtragem Colaborativa e Filtragem Híbrida baseadas em memória. A Filtragem Baseada em Conteúdo permite através da análise das caraterísticas dos itens, essencialmente baseadas na metodologia TFIDF para o processamento de linguagem natural (NLP), extrair as características ou atributos fundamentais dos itens e selecionar itens semelhantes ou propor classificações previstas para os itens de interesse ainda não classificados pelo utilizador ativo. A Filtragem Colaborativa permite aplicar a metodologia kNN, para identificar a semelhança entre o utilizador ativo, situados na vizinhança e propor classificações previstas para itens de interesse ainda não classificados. Ambas as aproximações têm inconvenientes e vantagens. A filtragem baseada em conteúdo, tende a especializar muito as recomendações em torno das características dos itens e, eventualmente, do utilizador ativo, uma vez que não tem em atenção os gostos dos restantes utilizadores do sistema. A filtragem colaborativa, essencialmente, tem a desvantagem do cold start, isto é, os problemas associados à admissão de novos utilizadores ou novos itens no sistema. Naturalmente que os inconvenientes de uma aproximação são as vantagens da outra e vice-versa. A Filtragem Híbrida combina as duas metodologias de forma a ultrapassar os seus inconvenientes podendo também seguir várias abordagens. No caso deste trabalho foi seguida uma abordagem weighted, permitindo uma combinação linear das filtragens colaborativas e baseada em conteúdo. Na avaliação experimental, os resultados obtidos foram relevantes em termos empíricos, coincidentes com os resultados apresentados em estudos semelhantes e validados com as métricas estatísticas MAE e RMSE. O protótipo de Sistema de Recomendação desenvolvido poderá evoluir para um sistema de recomendação de produção, sendo adaptável para outros conteúdos de aplicações web.
publishDate	2020
dc.date.none.fl_str_mv	2020-12-02 2021-04-19T11:07:47Z 2021-03-10 2021-03-10T00:00:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10400.19/6725 TID:202697517
url	http://hdl.handle.net/10400.19/6725
identifier_str_mv	TID:202697517
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799130916690329600

Sistemas de recomendação para conteúdos de aplicações web

Registros relacionados