Need for Speed : analysis of brazilian malware classifiers' expiration date

Detalhes bibliográficos
Autor(a) principal: Ceschin, Fabrício José de Oliveira
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: https://hdl.handle.net/1884/55204
Resumo: Orientador : André Ricardo Abed Grégio
id UFPR_9926da3f1632bf6faa0d9ab590ac2440
oai_identifier_str oai:acervodigital.ufpr.br:1884/55204
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Ceschin, Fabrício José de OliveiraGomes, David MenottiUniversidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaGrégio, André Ricardo Abed2018-10-29T12:24:53Z2018-10-29T12:24:53Z2018https://hdl.handle.net/1884/55204Orientador : André Ricardo Abed GrégioCoorientador : David Menotti GomesDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 27/02/2018Inclui referênciasResumo: Novos programas maliciosos são criados e liberados diariamente para enganar usuários e superar soluções de segurança, assim exigindo melhora continua nestes mecanismos (por exemplo, atualização constante de antivírus). Apesar da maioria dos programas maliciosos serem "genéricos suficiente para infectar o mesmo tipo de sistema operacional mundialmente, alguns deles estão relacionados as especificidades de um ciberespaço de certos países alvos. Neste trabalho, nos apresentemos uma analise de milhares de exemplares de malware coletados no ciberespaço brasileiro ao longo de vários anos, incluindo suas evoluções e o impacto dessas evoluções na classificação de malware. Nos também disponibilizamos um dataset desse conjunto de malware para permitir que outros experimentos e comparações sejam feitas pela comunidade. Este dataset representa o ciberespaço brasileiro e contem perfis de programas que sao conhecidamente malignos e benignos, baseados em características estáticas de seus binários. Nossa analise utilizou algoritmos de aprendizado de maquina (em particular, nos avaliamos quatro algoritmos populares off-the-shelf : Support Vector Machines, Multilayer Perceptron, KNN e Random Forest) para classificar os programas do nosso dataset como maligno ou benigno (incluindo experimentos com thresholds) e identificar o potencial concept drift que ocorre quando o modelo de classificação evolui com o passar do tempo. Nos também providenciamos detalhes extensos sobre nosso dataset, que e composto por 38.000 programas - 20.000 rotulados como malignos, coletados de anexos de e-mails maliciosos/usuários infectados (coletados em ambos os casos por uma grande instituição financeira brasileira com uma rede distribuída em todo o pais entre 2013 e começo de 2017. Por uma questão de reprodutibilidade e comparação imparcial, nos disponibilizamos publicamente os vetores de características utilizados. Finalmente, nos discutimos os experimentos conduzimos, cuja analise evidencia a existência de concept drift nos programas, tanto benignos como malignos, e mostra que não e possível dizer que existe sasonalidade em nosso dataset. Palavras-chave: Classificação de programas, Identificação de malware, Aprendizado de maquina, Concept drift.Abstract: New malware variants are produced and released daily to deceive users and overcome defense solutions, thus demanding continuous improvements on these mechanisms (e.g., antiviruses constant updates). Although most malware samples are usually "generic" enough to infect the same type of operating system world-widely, some of them are tied to the specificities regarding the cyberspace of certain target countries. In this work, we present an analysis of thousands of malware samples collected in the Brazilian cyberspace along several years, including their evolution and the impact of this evolution on malware classification. We also share a labeled dataset of this Brazilian malware set to allow other experiments and comparisons by the community. This dataset is representative of the Brazilian cyberspace and contains profiles of known-bad and known-good programs based on binaries' static features. Our analysis leveraged machine learning algorithms (in particular, we evaluated four popular off-the-shelf classifiers: Support Vector Machines, Multilayer Perceptron, KNN and Random Forest) to classify the programs of our dataset as malware or goodware (including experiments with thresholds) and to identify the potential concept drift that occurs when the subject of a classification scheme evolves as time goes by. We also provide extensive details about our dataset, which is composed of 38, 000 programs - 20, 000 labeled as known malware, collected from malicious email attachments/infected users (triaged in both cases by a major Brazilian financial institution with a country-wide distributed network) between 2013 and early 2017. For the sake of reproducibility and unbiased comparison, we make the feature vectors produced from our database publicly available. Finally, we discuss the results of the conducted experiments, whose analysis evidences the existence of concept drift on programs, either goodware and malware, and shows that it is not possible to say that there is seasonality in our dataset. Keywords: Program classification, Malware identification, Machine learning, Concept drift.71 p. : il. (algumas color.).application/pdfBanco de dados - Medidas de segurançaCiencia da computaçãoComputadores - Medidas de segurançaProgramas de computadorTesesNeed for Speed : analysis of brazilian malware classifiers' expiration dateinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - T - FABRICIO JOSE DE OLIVEIRA CESCHIN.pdfapplication/pdf21003468https://acervodigital.ufpr.br/bitstream/1884/55204/1/R%20-%20T%20-%20FABRICIO%20JOSE%20DE%20OLIVEIRA%20CESCHIN.pdf4d014d93b0b903bf544ca376f91a2d34MD51open access1884/552042018-10-29 09:24:53.63open accessoai:acervodigital.ufpr.br:1884/55204Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082018-10-29T12:24:53Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Need for Speed : analysis of brazilian malware classifiers' expiration date
title Need for Speed : analysis of brazilian malware classifiers' expiration date
spellingShingle Need for Speed : analysis of brazilian malware classifiers' expiration date
Ceschin, Fabrício José de Oliveira
Banco de dados - Medidas de segurança
Ciencia da computação
Computadores - Medidas de segurança
Programas de computador
Teses
title_short Need for Speed : analysis of brazilian malware classifiers' expiration date
title_full Need for Speed : analysis of brazilian malware classifiers' expiration date
title_fullStr Need for Speed : analysis of brazilian malware classifiers' expiration date
title_full_unstemmed Need for Speed : analysis of brazilian malware classifiers' expiration date
title_sort Need for Speed : analysis of brazilian malware classifiers' expiration date
author Ceschin, Fabrício José de Oliveira
author_facet Ceschin, Fabrício José de Oliveira
author_role author
dc.contributor.other.pt_BR.fl_str_mv Gomes, David Menotti
Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.author.fl_str_mv Ceschin, Fabrício José de Oliveira
dc.contributor.advisor1.fl_str_mv Grégio, André Ricardo Abed
contributor_str_mv Grégio, André Ricardo Abed
dc.subject.por.fl_str_mv Banco de dados - Medidas de segurança
Ciencia da computação
Computadores - Medidas de segurança
Programas de computador
Teses
topic Banco de dados - Medidas de segurança
Ciencia da computação
Computadores - Medidas de segurança
Programas de computador
Teses
description Orientador : André Ricardo Abed Grégio
publishDate 2018
dc.date.accessioned.fl_str_mv 2018-10-29T12:24:53Z
dc.date.available.fl_str_mv 2018-10-29T12:24:53Z
dc.date.issued.fl_str_mv 2018
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/55204
url https://hdl.handle.net/1884/55204
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 71 p. : il. (algumas color.).
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/55204/1/R%20-%20T%20-%20FABRICIO%20JOSE%20DE%20OLIVEIRA%20CESCHIN.pdf
bitstream.checksum.fl_str_mv 4d014d93b0b903bf544ca376f91a2d34
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1801860870879313920