Modelos evolutivos baseados em grânulos e nuvens de dados para classificação online de spam

Detalhes bibliográficos
Autor(a) principal: Pouças, Ricardo de Paula
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFLA
Texto Completo: http://repositorio.ufla.br/jspui/handle/1/39264
Resumo: Sending and receiving e-mails has become a concern since people use such tool to disseminate malicious code aiming to damage a computer system or steal information. The act of sending a message without user permission is called spam. There exist several techniques to disseminate spams. They are based on the content of the message or in some weakness of the classification system, which intercepts messages. Classification systems able to self-adapt over time are rare. Adaptation is needed because spams vary over time as consequence of the application of several message-masking techniques. Moreover, classification models that handle large volumes of data using low computational resource are interesting. Evolving Intelligent Systems are able to adapt their parameters and structure in view of the changes in a stream of data extracted from e-mails. This work uses TEDA (Typicality and Eccentricity based Data Analytics) and FBeM (Fuzzy Set-Based Evolving Modeling) for online unsupervised classification of spams. TEDA is based on the concepts of data clouds, eccentricity and typicality. The idea is that TEDA clouds do not have a specific geometric shape such as conventional clusters. FBeM uses fuzzy granular objects to summarize information extracted from a data stream. FBeM is based on the concept of coverage (granulation) of the data space. Its rules are linguistically interpretable; they are useful to help decision making. TEDA and FBeM are compared in the sense of classification error, processing speed and parsimony. For dimensionality reduction, ACO (Ant Colony Optimization) is employed. ACO is inspired on intelligent behavior of ants. The feature selection problem is represented as a graph, where the optimum path minimizes an objective function and suggests the most discriminate features for spam classification. A dataset containing 25745 samples, being 7830 spams and 17915 legitimate e-mails, was created. 711 features extracted from an e-mail server describe each sample.
id UFLA_89da49ccca42f3a03ffdf3f8ed087bd3
oai_identifier_str oai:localhost:1/39264
network_acronym_str UFLA
network_name_str Repositório Institucional da UFLA
repository_id_str
spelling Modelos evolutivos baseados em grânulos e nuvens de dados para classificação online de spamDetecção de spamSistemas inteligentes evolutivosSistemas FuzzyAgrupamento incrementalNuvem de dadosSpam detectionEvolving intelligent methodsFuzzy systemsIncremental clusteringData cloudsSistemas de ComputaçãoSending and receiving e-mails has become a concern since people use such tool to disseminate malicious code aiming to damage a computer system or steal information. The act of sending a message without user permission is called spam. There exist several techniques to disseminate spams. They are based on the content of the message or in some weakness of the classification system, which intercepts messages. Classification systems able to self-adapt over time are rare. Adaptation is needed because spams vary over time as consequence of the application of several message-masking techniques. Moreover, classification models that handle large volumes of data using low computational resource are interesting. Evolving Intelligent Systems are able to adapt their parameters and structure in view of the changes in a stream of data extracted from e-mails. This work uses TEDA (Typicality and Eccentricity based Data Analytics) and FBeM (Fuzzy Set-Based Evolving Modeling) for online unsupervised classification of spams. TEDA is based on the concepts of data clouds, eccentricity and typicality. The idea is that TEDA clouds do not have a specific geometric shape such as conventional clusters. FBeM uses fuzzy granular objects to summarize information extracted from a data stream. FBeM is based on the concept of coverage (granulation) of the data space. Its rules are linguistically interpretable; they are useful to help decision making. TEDA and FBeM are compared in the sense of classification error, processing speed and parsimony. For dimensionality reduction, ACO (Ant Colony Optimization) is employed. ACO is inspired on intelligent behavior of ants. The feature selection problem is represented as a graph, where the optimum path minimizes an objective function and suggests the most discriminate features for spam classification. A dataset containing 25745 samples, being 7830 spams and 17915 legitimate e-mails, was created. 711 features extracted from an e-mail server describe each sample.Enviar e receber e-mails tem se tornado um problema devido ao fato de que pessoas malintencionadas utilizam essa ferramenta para disseminar códigos maliciosos com o objetivo de infectar computadores ou roubar informação. O ato de enviar e-mails sem a permissão do usuário é denominado spam. Existem várias técnicas para disseminação de spam. Elas são baseadas no conteúdo da mensagem ou em alguma fragilidade do sistema classificador que tenta interceptar mensagens. Sistemas classificadores capazes de se auto adaptar continuamente conforme a necessidade são raros. A necessidade de adaptação se dá visto às características variáveis de spams como consequência do uso de diversas técnicas de mascaramento de mensagem. Além disso, modelos classificadores que lidam com grandes volumes de dados utilizando o menor custo computacional possível são interessantes. Sistemas Inteligentes Evolutivos são capazes de se adaptar parametricamente e estruturalmente frente às mudanças em um fluxo de dados extraído de e-mails. Neste trabalho foi utilizado o método TEDA (Typicality and Eccentricity based Data Analytics) e o método FBeM (Fuzzy Set-Based Evolving Modeling) para classificação de spam online de forma não supervisionada. TEDA é um método que se baseia nos conceitos de nuvem de dados, excentricidade e tipicidade. A ideia é que nuvens TEDA não têm um formato geométrico específico, como clusters convencionais. FBeM usa objetos fuzzy granulares para sumarizar a informação extraída de um fluxo. FBeM é baseado no conceito de cobertura (granulação) do espaço dos dados. Suas regras são interpretáveis linguisticamente; elas são úteis para auxílio à tomada de decisão. Os métodos TEDA e FBEM são comparados em termos do erro de classificação, custo computacional e parcimônia. Para redução de dimensionalidade foi utilizado o algoritmo ACO (Ant Colony Optimization). ACO se trata de um algoritmo inspirado na inteligência do comportamento de formigas. O problema de seleção de variáveis é representado em um grafo, onde um caminho ótimo minimiza uma função objetivo e sugere variáveis mais discriminativas de e-mails spam. Uma base de dados contendo 25745 amostras, sendo 7830 spams e 17915 e-mails legítimos, foi criada. Cada amostra é descrita por 711 variáveis extraídas de um servidor de e-mails.Universidade Federal de LavrasPrograma de Pós-Graduação em Engenharia de Sistemas e AutomaçãoUFLAbrasilDepartamento de EngenhariaLeite, Daniel FurtadoGouvêa Junior, Maury MeirellesRodríguez, Demóstenes ZegarraPouças, Ricardo de Paula2020-03-09T17:02:57Z2020-03-09T17:02:57Z2020-02-112017-08-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfPOUÇAS, R. de P. Modelos evolutivos baseados em grânulos e nuvens de dados para classificação online de spam. 2020. 101 p. Dissertação (Mestrado em Engenharia de Sistemas e Automação)-Universidade Federal de Lavras, Lavras, 2017.http://repositorio.ufla.br/jspui/handle/1/39264porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLA2020-03-09T17:02:58Zoai:localhost:1/39264Repositório InstitucionalPUBhttp://repositorio.ufla.br/oai/requestnivaldo@ufla.br || repositorio.biblioteca@ufla.bropendoar:2020-03-09T17:02:58Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)false
dc.title.none.fl_str_mv Modelos evolutivos baseados em grânulos e nuvens de dados para classificação online de spam
title Modelos evolutivos baseados em grânulos e nuvens de dados para classificação online de spam
spellingShingle Modelos evolutivos baseados em grânulos e nuvens de dados para classificação online de spam
Pouças, Ricardo de Paula
Detecção de spam
Sistemas inteligentes evolutivos
Sistemas Fuzzy
Agrupamento incremental
Nuvem de dados
Spam detection
Evolving intelligent methods
Fuzzy systems
Incremental clustering
Data clouds
Sistemas de Computação
title_short Modelos evolutivos baseados em grânulos e nuvens de dados para classificação online de spam
title_full Modelos evolutivos baseados em grânulos e nuvens de dados para classificação online de spam
title_fullStr Modelos evolutivos baseados em grânulos e nuvens de dados para classificação online de spam
title_full_unstemmed Modelos evolutivos baseados em grânulos e nuvens de dados para classificação online de spam
title_sort Modelos evolutivos baseados em grânulos e nuvens de dados para classificação online de spam
author Pouças, Ricardo de Paula
author_facet Pouças, Ricardo de Paula
author_role author
dc.contributor.none.fl_str_mv Leite, Daniel Furtado
Gouvêa Junior, Maury Meirelles
Rodríguez, Demóstenes Zegarra
dc.contributor.author.fl_str_mv Pouças, Ricardo de Paula
dc.subject.por.fl_str_mv Detecção de spam
Sistemas inteligentes evolutivos
Sistemas Fuzzy
Agrupamento incremental
Nuvem de dados
Spam detection
Evolving intelligent methods
Fuzzy systems
Incremental clustering
Data clouds
Sistemas de Computação
topic Detecção de spam
Sistemas inteligentes evolutivos
Sistemas Fuzzy
Agrupamento incremental
Nuvem de dados
Spam detection
Evolving intelligent methods
Fuzzy systems
Incremental clustering
Data clouds
Sistemas de Computação
description Sending and receiving e-mails has become a concern since people use such tool to disseminate malicious code aiming to damage a computer system or steal information. The act of sending a message without user permission is called spam. There exist several techniques to disseminate spams. They are based on the content of the message or in some weakness of the classification system, which intercepts messages. Classification systems able to self-adapt over time are rare. Adaptation is needed because spams vary over time as consequence of the application of several message-masking techniques. Moreover, classification models that handle large volumes of data using low computational resource are interesting. Evolving Intelligent Systems are able to adapt their parameters and structure in view of the changes in a stream of data extracted from e-mails. This work uses TEDA (Typicality and Eccentricity based Data Analytics) and FBeM (Fuzzy Set-Based Evolving Modeling) for online unsupervised classification of spams. TEDA is based on the concepts of data clouds, eccentricity and typicality. The idea is that TEDA clouds do not have a specific geometric shape such as conventional clusters. FBeM uses fuzzy granular objects to summarize information extracted from a data stream. FBeM is based on the concept of coverage (granulation) of the data space. Its rules are linguistically interpretable; they are useful to help decision making. TEDA and FBeM are compared in the sense of classification error, processing speed and parsimony. For dimensionality reduction, ACO (Ant Colony Optimization) is employed. ACO is inspired on intelligent behavior of ants. The feature selection problem is represented as a graph, where the optimum path minimizes an objective function and suggests the most discriminate features for spam classification. A dataset containing 25745 samples, being 7830 spams and 17915 legitimate e-mails, was created. 711 features extracted from an e-mail server describe each sample.
publishDate 2017
dc.date.none.fl_str_mv 2017-08-25
2020-03-09T17:02:57Z
2020-03-09T17:02:57Z
2020-02-11
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv POUÇAS, R. de P. Modelos evolutivos baseados em grânulos e nuvens de dados para classificação online de spam. 2020. 101 p. Dissertação (Mestrado em Engenharia de Sistemas e Automação)-Universidade Federal de Lavras, Lavras, 2017.
http://repositorio.ufla.br/jspui/handle/1/39264
identifier_str_mv POUÇAS, R. de P. Modelos evolutivos baseados em grânulos e nuvens de dados para classificação online de spam. 2020. 101 p. Dissertação (Mestrado em Engenharia de Sistemas e Automação)-Universidade Federal de Lavras, Lavras, 2017.
url http://repositorio.ufla.br/jspui/handle/1/39264
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Lavras
Programa de Pós-Graduação em Engenharia de Sistemas e Automação
UFLA
brasil
Departamento de Engenharia
publisher.none.fl_str_mv Universidade Federal de Lavras
Programa de Pós-Graduação em Engenharia de Sistemas e Automação
UFLA
brasil
Departamento de Engenharia
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFLA
instname:Universidade Federal de Lavras (UFLA)
instacron:UFLA
instname_str Universidade Federal de Lavras (UFLA)
instacron_str UFLA
institution UFLA
reponame_str Repositório Institucional da UFLA
collection Repositório Institucional da UFLA
repository.name.fl_str_mv Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)
repository.mail.fl_str_mv nivaldo@ufla.br || repositorio.biblioteca@ufla.br
_version_ 1784550006949150720