Big data analytics: a predictive analysis applied to cybersecurity in a financial organization

Detalhes bibliográficos
Autor(a) principal: Pereira, Pedro Filipe Martins Tourais
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10362/79661
Resumo: Project Work presented as partial requirement for obtaining the Master’s degree in Information Management, with a specialization in Knowledge Management and Business Intelligence
id RCAP_951525d48fc7f6befabe47e2eec3845e
oai_identifier_str oai:run.unl.pt:10362/79661
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Big data analytics: a predictive analysis applied to cybersecurity in a financial organizationCybersecurityThreat DetectionSIEMSparkMachine LearningFinancial OrganizationCibersegurançaDetecção de AmeaçasSIEMSparkMachine LearningOrganização FinanceiraProject Work presented as partial requirement for obtaining the Master’s degree in Information Management, with a specialization in Knowledge Management and Business IntelligenceWith the generalization of the internet access, cyber attacks have registered an alarming growth in frequency and severity of damages, along with the awareness of organizations with heavy investments in cybersecurity, such as in the financial sector. This work is focused on an organization’s financial service that operates on the international markets in the payment systems industry. The objective was to develop a predictive framework solution responsible for threat detection to support the security team to open investigations on intrusive server requests, over the exponentially growing log events collected by the SIEM from the Apache Web Servers for the financial service. A Big Data framework, using Hadoop and Spark, was developed to perform classification tasks over the financial service requests, using Neural Networks, Logistic Regression, SVM, and Random Forests algorithms, while handling the training of the imbalance dataset through BEV. The main conclusions over the analysis conducted, registered the best scoring performances for the Random Forests classifier using all the preprocessed features available. Using the all the available worker nodes with a balanced configuration of the Spark executors, the most performant elapsed times for loading and preprocessing of the data were achieved using the column-oriented ORC with native format, while the row-oriented CSV format performed the best for the training of the classifiers.Com a generalização do acesso à internet, os ciberataques registaram um crescimento alarmante em frequência e severidade de danos causados, a par da consciencialização das organizações, com elevados investimentos em cibersegurança, como no setor financeiro. Este trabalho focou-se no serviço financeiro de uma organização que opera nos mercados internacionais da indústria de sistemas de pagamento. O objetivo consistiu no desenvolvimento uma solução preditiva responsável pela detecção de ameaças, por forma a dar suporte à equipa de segurança na abertura de investigações sobre pedidos intrusivos no servidor, relativamente aos exponencialmente crescentes eventos de log coletados pelo SIEM, referentes aos Apache Web Servers, para o serviço financeiro. Uma solução de Big Data, usando Hadoop e Spark, foi desenvolvida com o objectivo de executar tarefas de classificação sobre os pedidos do serviço financeiros, usando os algoritmos Neural Networks, Logistic Regression, SVM e Random Forests, solucionando os problemas associados ao treino de um dataset desequilibrado através de BEV. As principais conclusões sobre as análises realizadas registaram os melhores resultados de classificação usando o algoritmo Random Forests com todas as variáveis pré-processadas disponíveis. Usando todos os nós do cluster e uma configuração balanceada dos executores do Spark, os melhores tempos para carregar e pré-processar os dados foram obtidos usando o formato colunar ORC nativo, enquanto o formato CSV, orientado a linhas, apresentou os melhores tempos para o treino dos classificadores.Henriques, Roberto André PereiraRUNPereira, Pedro Filipe Martins Tourais2019-08-30T15:05:57Z2019-07-052019-07-05T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/79661TID:202278875enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T04:35:20Zoai:run.unl.pt:10362/79661Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:35:49.409627Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Big data analytics: a predictive analysis applied to cybersecurity in a financial organization
title Big data analytics: a predictive analysis applied to cybersecurity in a financial organization
spellingShingle Big data analytics: a predictive analysis applied to cybersecurity in a financial organization
Pereira, Pedro Filipe Martins Tourais
Cybersecurity
Threat Detection
SIEM
Spark
Machine Learning
Financial Organization
Cibersegurança
Detecção de Ameaças
SIEM
Spark
Machine Learning
Organização Financeira
title_short Big data analytics: a predictive analysis applied to cybersecurity in a financial organization
title_full Big data analytics: a predictive analysis applied to cybersecurity in a financial organization
title_fullStr Big data analytics: a predictive analysis applied to cybersecurity in a financial organization
title_full_unstemmed Big data analytics: a predictive analysis applied to cybersecurity in a financial organization
title_sort Big data analytics: a predictive analysis applied to cybersecurity in a financial organization
author Pereira, Pedro Filipe Martins Tourais
author_facet Pereira, Pedro Filipe Martins Tourais
author_role author
dc.contributor.none.fl_str_mv Henriques, Roberto André Pereira
RUN
dc.contributor.author.fl_str_mv Pereira, Pedro Filipe Martins Tourais
dc.subject.por.fl_str_mv Cybersecurity
Threat Detection
SIEM
Spark
Machine Learning
Financial Organization
Cibersegurança
Detecção de Ameaças
SIEM
Spark
Machine Learning
Organização Financeira
topic Cybersecurity
Threat Detection
SIEM
Spark
Machine Learning
Financial Organization
Cibersegurança
Detecção de Ameaças
SIEM
Spark
Machine Learning
Organização Financeira
description Project Work presented as partial requirement for obtaining the Master’s degree in Information Management, with a specialization in Knowledge Management and Business Intelligence
publishDate 2019
dc.date.none.fl_str_mv 2019-08-30T15:05:57Z
2019-07-05
2019-07-05T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10362/79661
TID:202278875
url http://hdl.handle.net/10362/79661
identifier_str_mv TID:202278875
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799137978486882304