Contribuições ao combate de web spamming
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
Texto Completo: | https://hdl.handle.net/20.500.12733/1620187 |
Resumo: | Orientadores: Akebo Yamakami, Tiago Agostinho de Almeida |
id |
UNICAMP-30_c2ef6e4b36b5e14b96f3d0e44c3c8d66 |
---|---|
oai_identifier_str |
oai::906369 |
network_acronym_str |
UNICAMP-30 |
network_name_str |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
repository_id_str |
|
spelling |
Contribuições ao combate de web spammingContributions to the battle against web spammingSpam (Mensagens eletrônicas)Aprendizado de máquinaReconhecimento de padrõesSpam (Electronic mail)Machine learningPattern recognitionOrientadores: Akebo Yamakami, Tiago Agostinho de AlmeidaDissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de ComputaçãoResumo: Com o crescente aumento do volume de informações disponíveis na Web, as ferramentas de busca tornam-se cada vez mais importantes para os usuários da Internet. Consequentemente, com o objetivo de se tornar mais visíveis, os sites concorrem entre si para ganhar melhores posições nos resultados das buscas feitas por esses usuários. Porém, muitos ganham maior visibilidade através de estratégias que enganam as ferramentas de busca. Esses sites, conhecidos como Web spam, causam prejuízos pessoais e econômicos aos usuários. Diante desse cenário, este trabalho apresenta uma análise do desempenho de diversos métodos de aprendizado de máquina aplicados na detecção automática de Web hosts que propagam Web spam. Os experimentos foram realizados usando duas bases de dados reais, públicas e de grande porte, das quais foram extraídos três diferentes conjuntos de vetores de atributos: baseados no conteúdo das páginas Web, baseados nos links das páginas Web e formados pela transformação dos atributos baseados nos links. Também foi analisada a viabilidade da redução de dimensionalidade do espaço dos atributos. Outra contribuição desse trabalho é a proposta de uma abordagem de classificação de Web spam, em que as predições obtidas com cada tipo de vetor de atributos são combinadas e uma decisão final é obtida usando-se voto majoritário simples. Os resultados obtidos indicam que os métodos de bagging de árvores de decisão, redes neurais perceptron de múltiplas camadas, floresta aleatória e boosting adaptativo de árvores de decisão são promissores na tarefa de detecção de Web spam. Além disso, verificou-se que os métodos de aprendizado tem melhor desempenho quando os vetores de atributos baseados no conteúdo e os vetores formados pela transformação dos atributos baseados nos links são combinados. Por fim, a combinação das predições obtidas com cada tipo de vetor de atributos gera bons resultados e por isso, essa é uma abordagem recomendada para o combate de Web spammingAbstract: Due to the increasing volume of information available on the Web, search engines become increasingly important to Internet users. Consequently, with the purpose of becoming more visible, the Web sites compete to achieve better positions in the results of the searches made by such users. However, many of them achieve a good visibility through strategies that try to circumvent the search engines. This kind of Web sites are known as Web spam and they are responsible for personal injury and economic losses to users. Given this scenario, this work presents a performance analysis of established machine learning techniques employed to automatically detect Web hosts that disseminate Web spam. The experiments were performed with two real, public and large datasets, from which were extracted three different sets of features vectors: contentbased ones, link-based ones and features vectors generated by the transformation of the link-based features. We also analyzed the viability of the dimensionality reduction of the feature space. Another contribution of this work is the proposal of a Web spam classification approach which combines the predictions achieved by each type of features vector and using a simple majority voting. The results indicate that bagging of decision trees, multilayer perceptron neural networks, random forest and adaptive boosting of decision trees are promising in the task of spam hosts classification. Furthermore, we have conclude that the learning techniques perform better when we have combined the content-based features vectors and the features vectors generated by the transformation of the link-based features. Finally, the combination of the predictions achieved with each type of features vector has achieved superior results and therefore it is a recommended approach to automatically detect Web spamMestradoAutomaçãoMestre em Engenharia Elétrica[s.n.]Yamakami, Akebo, 1947-Almeida, Tiago Agostinho de, 1982-Montenegro, SahudyAttux, Romis Ribeiro de FaissolUniversidade Estadual de Campinas (UNICAMP). Faculdade de Engenharia Elétrica e de ComputaçãoPrograma de Pós-Graduação em Engenharia ElétricaUNIVERSIDADE ESTADUAL DE CAMPINASSilva, Renato Moraes, 1988-2013info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf97 p. : il.https://hdl.handle.net/20.500.12733/1620187SILVA, Renato Moraes. Contribuições ao combate de web spamming. 2013. 97 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1620187. Acesso em: 3 set. 2024.https://repositorio.unicamp.br/acervo/detalhe/906369porreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2022-05-04T21:05:25Zoai::906369Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2022-05-04T21:05:25Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false |
dc.title.none.fl_str_mv |
Contribuições ao combate de web spamming Contributions to the battle against web spamming |
title |
Contribuições ao combate de web spamming |
spellingShingle |
Contribuições ao combate de web spamming Silva, Renato Moraes, 1988- Spam (Mensagens eletrônicas) Aprendizado de máquina Reconhecimento de padrões Spam (Electronic mail) Machine learning Pattern recognition |
title_short |
Contribuições ao combate de web spamming |
title_full |
Contribuições ao combate de web spamming |
title_fullStr |
Contribuições ao combate de web spamming |
title_full_unstemmed |
Contribuições ao combate de web spamming |
title_sort |
Contribuições ao combate de web spamming |
author |
Silva, Renato Moraes, 1988- |
author_facet |
Silva, Renato Moraes, 1988- |
author_role |
author |
dc.contributor.none.fl_str_mv |
Yamakami, Akebo, 1947- Almeida, Tiago Agostinho de, 1982- Montenegro, Sahudy Attux, Romis Ribeiro de Faissol Universidade Estadual de Campinas (UNICAMP). Faculdade de Engenharia Elétrica e de Computação Programa de Pós-Graduação em Engenharia Elétrica UNIVERSIDADE ESTADUAL DE CAMPINAS |
dc.contributor.author.fl_str_mv |
Silva, Renato Moraes, 1988- |
dc.subject.por.fl_str_mv |
Spam (Mensagens eletrônicas) Aprendizado de máquina Reconhecimento de padrões Spam (Electronic mail) Machine learning Pattern recognition |
topic |
Spam (Mensagens eletrônicas) Aprendizado de máquina Reconhecimento de padrões Spam (Electronic mail) Machine learning Pattern recognition |
description |
Orientadores: Akebo Yamakami, Tiago Agostinho de Almeida |
publishDate |
2013 |
dc.date.none.fl_str_mv |
2013 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/20.500.12733/1620187 SILVA, Renato Moraes. Contribuições ao combate de web spamming. 2013. 97 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1620187. Acesso em: 3 set. 2024. |
url |
https://hdl.handle.net/20.500.12733/1620187 |
identifier_str_mv |
SILVA, Renato Moraes. Contribuições ao combate de web spamming. 2013. 97 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1620187. Acesso em: 3 set. 2024. |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://repositorio.unicamp.br/acervo/detalhe/906369 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf 97 p. : il. |
dc.publisher.none.fl_str_mv |
[s.n.] |
publisher.none.fl_str_mv |
[s.n.] |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) instname:Universidade Estadual de Campinas (UNICAMP) instacron:UNICAMP |
instname_str |
Universidade Estadual de Campinas (UNICAMP) |
instacron_str |
UNICAMP |
institution |
UNICAMP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
collection |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP) |
repository.mail.fl_str_mv |
sbubd@unicamp.br |
_version_ |
1809189097587081216 |