Contribuições ao combate de web spamming

Detalhes bibliográficos
Autor(a) principal: Silva, Renato Moraes, 1988-
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
Texto Completo: https://hdl.handle.net/20.500.12733/1620187
Resumo: Orientadores: Akebo Yamakami, Tiago Agostinho de Almeida
id UNICAMP-30_c2ef6e4b36b5e14b96f3d0e44c3c8d66
oai_identifier_str oai::906369
network_acronym_str UNICAMP-30
network_name_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository_id_str
spelling Contribuições ao combate de web spammingContributions to the battle against web spammingSpam (Mensagens eletrônicas)Aprendizado de máquinaReconhecimento de padrõesSpam (Electronic mail)Machine learningPattern recognitionOrientadores: Akebo Yamakami, Tiago Agostinho de AlmeidaDissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de ComputaçãoResumo: Com o crescente aumento do volume de informações disponíveis na Web, as ferramentas de busca tornam-se cada vez mais importantes para os usuários da Internet. Consequentemente, com o objetivo de se tornar mais visíveis, os sites concorrem entre si para ganhar melhores posições nos resultados das buscas feitas por esses usuários. Porém, muitos ganham maior visibilidade através de estratégias que enganam as ferramentas de busca. Esses sites, conhecidos como Web spam, causam prejuízos pessoais e econômicos aos usuários. Diante desse cenário, este trabalho apresenta uma análise do desempenho de diversos métodos de aprendizado de máquina aplicados na detecção automática de Web hosts que propagam Web spam. Os experimentos foram realizados usando duas bases de dados reais, públicas e de grande porte, das quais foram extraídos três diferentes conjuntos de vetores de atributos: baseados no conteúdo das páginas Web, baseados nos links das páginas Web e formados pela transformação dos atributos baseados nos links. Também foi analisada a viabilidade da redução de dimensionalidade do espaço dos atributos. Outra contribuição desse trabalho é a proposta de uma abordagem de classificação de Web spam, em que as predições obtidas com cada tipo de vetor de atributos são combinadas e uma decisão final é obtida usando-se voto majoritário simples. Os resultados obtidos indicam que os métodos de bagging de árvores de decisão, redes neurais perceptron de múltiplas camadas, floresta aleatória e boosting adaptativo de árvores de decisão são promissores na tarefa de detecção de Web spam. Além disso, verificou-se que os métodos de aprendizado tem melhor desempenho quando os vetores de atributos baseados no conteúdo e os vetores formados pela transformação dos atributos baseados nos links são combinados. Por fim, a combinação das predições obtidas com cada tipo de vetor de atributos gera bons resultados e por isso, essa é uma abordagem recomendada para o combate de Web spammingAbstract: Due to the increasing volume of information available on the Web, search engines become increasingly important to Internet users. Consequently, with the purpose of becoming more visible, the Web sites compete to achieve better positions in the results of the searches made by such users. However, many of them achieve a good visibility through strategies that try to circumvent the search engines. This kind of Web sites are known as Web spam and they are responsible for personal injury and economic losses to users. Given this scenario, this work presents a performance analysis of established machine learning techniques employed to automatically detect Web hosts that disseminate Web spam. The experiments were performed with two real, public and large datasets, from which were extracted three different sets of features vectors: contentbased ones, link-based ones and features vectors generated by the transformation of the link-based features. We also analyzed the viability of the dimensionality reduction of the feature space. Another contribution of this work is the proposal of a Web spam classification approach which combines the predictions achieved by each type of features vector and using a simple majority voting. The results indicate that bagging of decision trees, multilayer perceptron neural networks, random forest and adaptive boosting of decision trees are promising in the task of spam hosts classification. Furthermore, we have conclude that the learning techniques perform better when we have combined the content-based features vectors and the features vectors generated by the transformation of the link-based features. Finally, the combination of the predictions achieved with each type of features vector has achieved superior results and therefore it is a recommended approach to automatically detect Web spamMestradoAutomaçãoMestre em Engenharia Elétrica[s.n.]Yamakami, Akebo, 1947-Almeida, Tiago Agostinho de, 1982-Montenegro, SahudyAttux, Romis Ribeiro de FaissolUniversidade Estadual de Campinas (UNICAMP). Faculdade de Engenharia Elétrica e de ComputaçãoPrograma de Pós-Graduação em Engenharia ElétricaUNIVERSIDADE ESTADUAL DE CAMPINASSilva, Renato Moraes, 1988-2013info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf97 p. : il.https://hdl.handle.net/20.500.12733/1620187SILVA, Renato Moraes. Contribuições ao combate de web spamming. 2013. 97 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1620187. Acesso em: 3 set. 2024.https://repositorio.unicamp.br/acervo/detalhe/906369porreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2022-05-04T21:05:25Zoai::906369Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2022-05-04T21:05:25Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv Contribuições ao combate de web spamming
Contributions to the battle against web spamming
title Contribuições ao combate de web spamming
spellingShingle Contribuições ao combate de web spamming
Silva, Renato Moraes, 1988-
Spam (Mensagens eletrônicas)
Aprendizado de máquina
Reconhecimento de padrões
Spam (Electronic mail)
Machine learning
Pattern recognition
title_short Contribuições ao combate de web spamming
title_full Contribuições ao combate de web spamming
title_fullStr Contribuições ao combate de web spamming
title_full_unstemmed Contribuições ao combate de web spamming
title_sort Contribuições ao combate de web spamming
author Silva, Renato Moraes, 1988-
author_facet Silva, Renato Moraes, 1988-
author_role author
dc.contributor.none.fl_str_mv Yamakami, Akebo, 1947-
Almeida, Tiago Agostinho de, 1982-
Montenegro, Sahudy
Attux, Romis Ribeiro de Faissol
Universidade Estadual de Campinas (UNICAMP). Faculdade de Engenharia Elétrica e de Computação
Programa de Pós-Graduação em Engenharia Elétrica
UNIVERSIDADE ESTADUAL DE CAMPINAS
dc.contributor.author.fl_str_mv Silva, Renato Moraes, 1988-
dc.subject.por.fl_str_mv Spam (Mensagens eletrônicas)
Aprendizado de máquina
Reconhecimento de padrões
Spam (Electronic mail)
Machine learning
Pattern recognition
topic Spam (Mensagens eletrônicas)
Aprendizado de máquina
Reconhecimento de padrões
Spam (Electronic mail)
Machine learning
Pattern recognition
description Orientadores: Akebo Yamakami, Tiago Agostinho de Almeida
publishDate 2013
dc.date.none.fl_str_mv 2013
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.12733/1620187
SILVA, Renato Moraes. Contribuições ao combate de web spamming. 2013. 97 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1620187. Acesso em: 3 set. 2024.
url https://hdl.handle.net/20.500.12733/1620187
identifier_str_mv SILVA, Renato Moraes. Contribuições ao combate de web spamming. 2013. 97 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1620187. Acesso em: 3 set. 2024.
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://repositorio.unicamp.br/acervo/detalhe/906369
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
97 p. : il.
dc.publisher.none.fl_str_mv [s.n.]
publisher.none.fl_str_mv [s.n.]
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
instname:Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
instname_str Universidade Estadual de Campinas (UNICAMP)
instacron_str UNICAMP
institution UNICAMP
reponame_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
collection Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv sbubd@unicamp.br
_version_ 1809189097587081216