Contribuições ao combate de web spamming

Silva, Renato Moraes, 1988-

Contribuições ao combate de web spamming

Detalhes bibliográficos
Autor(a) principal:	Silva, Renato Moraes, 1988-
Data de Publicação:	2013
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
Texto Completo:	https://hdl.handle.net/20.500.12733/1620187
Resumo:	Orientadores: Akebo Yamakami, Tiago Agostinho de Almeida

Metadados do item

id	UNICAMP-30_c2ef6e4b36b5e14b96f3d0e44c3c8d66
oai_identifier_str	oai::906369
network_acronym_str	UNICAMP-30
network_name_str	Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository_id_str
spelling	Contribuições ao combate de web spammingContributions to the battle against web spammingSpam (Mensagens eletrônicas)Aprendizado de máquinaReconhecimento de padrõesSpam (Electronic mail)Machine learningPattern recognitionOrientadores: Akebo Yamakami, Tiago Agostinho de AlmeidaDissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de ComputaçãoResumo: Com o crescente aumento do volume de informações disponíveis na Web, as ferramentas de busca tornam-se cada vez mais importantes para os usuários da Internet. Consequentemente, com o objetivo de se tornar mais visíveis, os sites concorrem entre si para ganhar melhores posições nos resultados das buscas feitas por esses usuários. Porém, muitos ganham maior visibilidade através de estratégias que enganam as ferramentas de busca. Esses sites, conhecidos como Web spam, causam prejuízos pessoais e econômicos aos usuários. Diante desse cenário, este trabalho apresenta uma análise do desempenho de diversos métodos de aprendizado de máquina aplicados na detecção automática de Web hosts que propagam Web spam. Os experimentos foram realizados usando duas bases de dados reais, públicas e de grande porte, das quais foram extraídos três diferentes conjuntos de vetores de atributos: baseados no conteúdo das páginas Web, baseados nos links das páginas Web e formados pela transformação dos atributos baseados nos links. Também foi analisada a viabilidade da redução de dimensionalidade do espaço dos atributos. Outra contribuição desse trabalho é a proposta de uma abordagem de classificação de Web spam, em que as predições obtidas com cada tipo de vetor de atributos são combinadas e uma decisão final é obtida usando-se voto majoritário simples. Os resultados obtidos indicam que os métodos de bagging de árvores de decisão, redes neurais perceptron de múltiplas camadas, floresta aleatória e boosting adaptativo de árvores de decisão são promissores na tarefa de detecção de Web spam. Além disso, verificou-se que os métodos de aprendizado tem melhor desempenho quando os vetores de atributos baseados no conteúdo e os vetores formados pela transformação dos atributos baseados nos links são combinados. Por fim, a combinação das predições obtidas com cada tipo de vetor de atributos gera bons resultados e por isso, essa é uma abordagem recomendada para o combate de Web spammingAbstract: Due to the increasing volume of information available on the Web, search engines become increasingly important to Internet users. Consequently, with the purpose of becoming more visible, the Web sites compete to achieve better positions in the results of the searches made by such users. However, many of them achieve a good visibility through strategies that try to circumvent the search engines. This kind of Web sites are known as Web spam and they are responsible for personal injury and economic losses to users. Given this scenario, this work presents a performance analysis of established machine learning techniques employed to automatically detect Web hosts that disseminate Web spam. The experiments were performed with two real, public and large datasets, from which were extracted three different sets of features vectors: contentbased ones, link-based ones and features vectors generated by the transformation of the link-based features. We also analyzed the viability of the dimensionality reduction of the feature space. Another contribution of this work is the proposal of a Web spam classification approach which combines the predictions achieved by each type of features vector and using a simple majority voting. The results indicate that bagging of decision trees, multilayer perceptron neural networks, random forest and adaptive boosting of decision trees are promising in the task of spam hosts classification. Furthermore, we have conclude that the learning techniques perform better when we have combined the content-based features vectors and the features vectors generated by the transformation of the link-based features. Finally, the combination of the predictions achieved with each type of features vector has achieved superior results and therefore it is a recommended approach to automatically detect Web spamMestradoAutomaçãoMestre em Engenharia Elétrica[s.n.]Yamakami, Akebo, 1947-Almeida, Tiago Agostinho de, 1982-Montenegro, SahudyAttux, Romis Ribeiro de FaissolUniversidade Estadual de Campinas (UNICAMP). Faculdade de Engenharia Elétrica e de ComputaçãoPrograma de Pós-Graduação em Engenharia ElétricaUNIVERSIDADE ESTADUAL DE CAMPINASSilva, Renato Moraes, 1988-2013info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf97 p. : il.https://hdl.handle.net/20.500.12733/1620187SILVA, Renato Moraes. Contribuições ao combate de web spamming. 2013. 97 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1620187. Acesso em: 3 set. 2024.https://repositorio.unicamp.br/acervo/detalhe/906369porreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2022-05-04T21:05:25Zoai::906369Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2022-05-04T21:05:25Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv	Contribuições ao combate de web spamming Contributions to the battle against web spamming
title	Contribuições ao combate de web spamming
spellingShingle	Contribuições ao combate de web spamming Silva, Renato Moraes, 1988- Spam (Mensagens eletrônicas) Aprendizado de máquina Reconhecimento de padrões Spam (Electronic mail) Machine learning Pattern recognition
title_short	Contribuições ao combate de web spamming
title_full	Contribuições ao combate de web spamming
title_fullStr	Contribuições ao combate de web spamming
title_full_unstemmed	Contribuições ao combate de web spamming
title_sort	Contribuições ao combate de web spamming
author	Silva, Renato Moraes, 1988-
author_facet	Silva, Renato Moraes, 1988-
author_role	author
dc.contributor.none.fl_str_mv	Yamakami, Akebo, 1947- Almeida, Tiago Agostinho de, 1982- Montenegro, Sahudy Attux, Romis Ribeiro de Faissol Universidade Estadual de Campinas (UNICAMP). Faculdade de Engenharia Elétrica e de Computação Programa de Pós-Graduação em Engenharia Elétrica UNIVERSIDADE ESTADUAL DE CAMPINAS
dc.contributor.author.fl_str_mv	Silva, Renato Moraes, 1988-
dc.subject.por.fl_str_mv	Spam (Mensagens eletrônicas) Aprendizado de máquina Reconhecimento de padrões Spam (Electronic mail) Machine learning Pattern recognition
topic	Spam (Mensagens eletrônicas) Aprendizado de máquina Reconhecimento de padrões Spam (Electronic mail) Machine learning Pattern recognition
description	Orientadores: Akebo Yamakami, Tiago Agostinho de Almeida
publishDate	2013
dc.date.none.fl_str_mv	2013
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/20.500.12733/1620187 SILVA, Renato Moraes. Contribuições ao combate de web spamming. 2013. 97 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1620187. Acesso em: 3 set. 2024.
url	https://hdl.handle.net/20.500.12733/1620187
identifier_str_mv	SILVA, Renato Moraes. Contribuições ao combate de web spamming. 2013. 97 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1620187. Acesso em: 3 set. 2024.
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	https://repositorio.unicamp.br/acervo/detalhe/906369
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf 97 p. : il.
dc.publisher.none.fl_str_mv	[s.n.]
publisher.none.fl_str_mv	[s.n.]
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) instname:Universidade Estadual de Campinas (UNICAMP) instacron:UNICAMP
instname_str	Universidade Estadual de Campinas (UNICAMP)
instacron_str	UNICAMP
institution	UNICAMP
reponame_str	Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
collection	Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv	sbubd@unicamp.br
_version_	1809189097587081216

Contribuições ao combate de web spamming

Registros relacionados