Identificação e caracterização de campanhas de spam a partir de honeypots

Pedro Henrique Calais Guerra

Identificação e caracterização de campanhas de spam a partir de honeypots

Detalhes bibliográficos
Autor(a) principal:	Pedro Henrique Calais Guerra
Data de Publicação:	2009
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/BUBD-9JTMUS
Resumo:	Este trabalho apresenta uma metodologia para caracterização de estratégias de disseminação de spams a partir da identificação de campanhas. Para entender com profundidade como spammers abusam os recursos da rede e constróem suas mensagens, uma análise agregada das mensagens de spam não é suficiente. O agrupamento de mensagens de spam em suas respectivas campanhas permite revelar comportamentos que não poderiam ser percebidos ao considerar o conjunto de mensagens como um todo. Este trabalho propõe uma técnica para identificação de campanhas de spam baseada na construção de uma Árvore de Padrões Frequentes, capaz de capturar os invariantes no conteúdo das mensagens e detectar mensagens que diferem apenas por características ofuscadas e variadas aleatoriamente por spammers. A técnica foi capaz de agrupar um conjunto de 350 milhões de mensagens em 57.851 campanhasdistintas. Em seguida, essas campanhas foram caracterizadas em termos de seus conteúdos e da forma como exploram recursos da rede. A partir da aplicação de algoritmos de mineração de regras de associação, foi possível determinar co-ocorrência de atributos das campanhas que revelam diferentes estratégias de disseminação de spams. Em particular, foram determinadas relações significativas entre a origem do spam e a forma como ele é disseminado na rede,entre sistemas operacionais e tipos de abuso e na forma como spammers encadeiam abusos entre máquinas na rede para entregar mensagens enquanto mantém anonimato. Os dados utilizados no trabalho foram coletados a partir de honeypots de baixa-interatividade que emulam proxies e relays abertos, comumente abusados por spammers. A coleta dos dados por esses emuladores estabeleceu uma visão do tráfego de spams antes que as mensagens fossem entregues aos destinatários, o que permitiu a determinação das diferentes estratégias de entrega de mensagens empregadas por spammers.

Metadados do item

id	UFMG_5621d84b5a0c35ef9b5dca57d9a8cfa5
oai_identifier_str	oai:repositorio.ufmg.br:1843/BUBD-9JTMUS
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Wagner Meira JuniorDorgival Olavo Guedes NetoCristine HoepersKlaus Steding-jessenVirgilio Augusto Fernandes AlmeidaPedro Henrique Calais Guerra2019-08-14T06:04:44Z2019-08-14T06:04:44Z2009-03-09http://hdl.handle.net/1843/BUBD-9JTMUSEste trabalho apresenta uma metodologia para caracterização de estratégias de disseminação de spams a partir da identificação de campanhas. Para entender com profundidade como spammers abusam os recursos da rede e constróem suas mensagens, uma análise agregada das mensagens de spam não é suficiente. O agrupamento de mensagens de spam em suas respectivas campanhas permite revelar comportamentos que não poderiam ser percebidos ao considerar o conjunto de mensagens como um todo. Este trabalho propõe uma técnica para identificação de campanhas de spam baseada na construção de uma Árvore de Padrões Frequentes, capaz de capturar os invariantes no conteúdo das mensagens e detectar mensagens que diferem apenas por características ofuscadas e variadas aleatoriamente por spammers. A técnica foi capaz de agrupar um conjunto de 350 milhões de mensagens em 57.851 campanhasdistintas. Em seguida, essas campanhas foram caracterizadas em termos de seus conteúdos e da forma como exploram recursos da rede. A partir da aplicação de algoritmos de mineração de regras de associação, foi possível determinar co-ocorrência de atributos das campanhas que revelam diferentes estratégias de disseminação de spams. Em particular, foram determinadas relações significativas entre a origem do spam e a forma como ele é disseminado na rede,entre sistemas operacionais e tipos de abuso e na forma como spammers encadeiam abusos entre máquinas na rede para entregar mensagens enquanto mantém anonimato. Os dados utilizados no trabalho foram coletados a partir de honeypots de baixa-interatividade que emulam proxies e relays abertos, comumente abusados por spammers. A coleta dos dados por esses emuladores estabeleceu uma visão do tráfego de spams antes que as mensagens fossem entregues aos destinatários, o que permitiu a determinação das diferentes estratégias de entrega de mensagens empregadas por spammers.This work presents a methodology for the characterization of spamming strategies based on the identification of spam campaigns. To deeply understand how spammers abuse network resources and obfuscate their messages, an aggregated analysis of spam messages is not enough. Grouping spam messages into campaigns is important to unveil behaviors that cannot be noticed when looking at the whole set of spams collected. We propose a spam identification technique based on a frequent pattern tree, which naturally captures the invariants on message content and detect messages that differ only due to obfuscated fragments. The technique was able to group 350 million messages into 57,851 distinct campaigns. After that, we characterize these campaigns both in terms of content obfuscation and exploitation of networkresources. Our methodology includes the use of attribute association analysis: by applying an association rule mining algorithm, we were able to determine co-occurrence of campaign attributes that unveil different spamming strategies. In particular, we found strong relationsbetween the origin of the spam and how the network was abused, between operating systems and types of abuse and patterns that describe how spammers chain machines over the Internetto conceal their identities. Data was collected from low-interaction honeypots emulating open proxies and open relays, traditionally abused by spammers. The data collected from these emulators created a vantage point of spams from inside the network, before the messages were delivered to recipients, and that allowed the determination of the different strategies adopted by spammers to deliver their messages.Universidade Federal de Minas GeraisUFMGRedes de computadores Medidas de segurançaComputaçãoMineração de dados (Computação)Ciência da computaçãoIdentificação e caracterização de campanhas de spam a partir de honeypotsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALciencomputacao_pedrohenriquecalaisguerra_dissertacao.pdfapplication/pdf4783560https://repositorio.ufmg.br/bitstream/1843/BUBD-9JTMUS/1/ciencomputacao_pedrohenriquecalaisguerra_dissertacao.pdf0f275c26c4afd618cfee6be3d83cf2ccMD51TEXTciencomputacao_pedrohenriquecalaisguerra_dissertacao.pdf.txtciencomputacao_pedrohenriquecalaisguerra_dissertacao.pdf.txtExtracted texttext/plain135366https://repositorio.ufmg.br/bitstream/1843/BUBD-9JTMUS/2/ciencomputacao_pedrohenriquecalaisguerra_dissertacao.pdf.txtb58c5cbeb28264405781ed01b190cb33MD521843/BUBD-9JTMUS2019-11-14 13:08:41.331oai:repositorio.ufmg.br:1843/BUBD-9JTMUSRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T16:08:41Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Identificação e caracterização de campanhas de spam a partir de honeypots
title	Identificação e caracterização de campanhas de spam a partir de honeypots
spellingShingle	Identificação e caracterização de campanhas de spam a partir de honeypots Pedro Henrique Calais Guerra Ciência da computação Redes de computadores Medidas de segurança Computação Mineração de dados (Computação)
title_short	Identificação e caracterização de campanhas de spam a partir de honeypots
title_full	Identificação e caracterização de campanhas de spam a partir de honeypots
title_fullStr	Identificação e caracterização de campanhas de spam a partir de honeypots
title_full_unstemmed	Identificação e caracterização de campanhas de spam a partir de honeypots
title_sort	Identificação e caracterização de campanhas de spam a partir de honeypots
author	Pedro Henrique Calais Guerra
author_facet	Pedro Henrique Calais Guerra
author_role	author
dc.contributor.advisor1.fl_str_mv	Wagner Meira Junior
dc.contributor.advisor-co1.fl_str_mv	Dorgival Olavo Guedes Neto
dc.contributor.referee1.fl_str_mv	Cristine Hoepers
dc.contributor.referee2.fl_str_mv	Klaus Steding-jessen
dc.contributor.referee3.fl_str_mv	Virgilio Augusto Fernandes Almeida
dc.contributor.author.fl_str_mv	Pedro Henrique Calais Guerra
contributor_str_mv	Wagner Meira Junior Dorgival Olavo Guedes Neto Cristine Hoepers Klaus Steding-jessen Virgilio Augusto Fernandes Almeida
dc.subject.por.fl_str_mv	Ciência da computação
topic	Ciência da computação Redes de computadores Medidas de segurança Computação Mineração de dados (Computação)
dc.subject.other.pt_BR.fl_str_mv	Redes de computadores Medidas de segurança Computação Mineração de dados (Computação)
description	Este trabalho apresenta uma metodologia para caracterização de estratégias de disseminação de spams a partir da identificação de campanhas. Para entender com profundidade como spammers abusam os recursos da rede e constróem suas mensagens, uma análise agregada das mensagens de spam não é suficiente. O agrupamento de mensagens de spam em suas respectivas campanhas permite revelar comportamentos que não poderiam ser percebidos ao considerar o conjunto de mensagens como um todo. Este trabalho propõe uma técnica para identificação de campanhas de spam baseada na construção de uma Árvore de Padrões Frequentes, capaz de capturar os invariantes no conteúdo das mensagens e detectar mensagens que diferem apenas por características ofuscadas e variadas aleatoriamente por spammers. A técnica foi capaz de agrupar um conjunto de 350 milhões de mensagens em 57.851 campanhasdistintas. Em seguida, essas campanhas foram caracterizadas em termos de seus conteúdos e da forma como exploram recursos da rede. A partir da aplicação de algoritmos de mineração de regras de associação, foi possível determinar co-ocorrência de atributos das campanhas que revelam diferentes estratégias de disseminação de spams. Em particular, foram determinadas relações significativas entre a origem do spam e a forma como ele é disseminado na rede,entre sistemas operacionais e tipos de abuso e na forma como spammers encadeiam abusos entre máquinas na rede para entregar mensagens enquanto mantém anonimato. Os dados utilizados no trabalho foram coletados a partir de honeypots de baixa-interatividade que emulam proxies e relays abertos, comumente abusados por spammers. A coleta dos dados por esses emuladores estabeleceu uma visão do tráfego de spams antes que as mensagens fossem entregues aos destinatários, o que permitiu a determinação das diferentes estratégias de entrega de mensagens empregadas por spammers.
publishDate	2009
dc.date.issued.fl_str_mv	2009-03-09
dc.date.accessioned.fl_str_mv	2019-08-14T06:04:44Z
dc.date.available.fl_str_mv	2019-08-14T06:04:44Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/BUBD-9JTMUS
url	http://hdl.handle.net/1843/BUBD-9JTMUS
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/BUBD-9JTMUS/1/ciencomputacao_pedrohenriquecalaisguerra_dissertacao.pdf https://repositorio.ufmg.br/bitstream/1843/BUBD-9JTMUS/2/ciencomputacao_pedrohenriquecalaisguerra_dissertacao.pdf.txt
bitstream.checksum.fl_str_mv	0f275c26c4afd618cfee6be3d83cf2cc b58c5cbeb28264405781ed01b190cb33
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1803589298747867136

Identificação e caracterização de campanhas de spam a partir de honeypots

Registros relacionados