Detecção de Phishing no Twitter Baseada em Algoritmos de Aprendizagem Online

Barbosa, Haline Pereira de Oliveira; http://lattes.cnpq.br/2285904262103284

Detecção de Phishing no Twitter Baseada em Algoritmos de Aprendizagem Online

Detalhes bibliográficos
Autor(a) principal:	Barbosa, Haline Pereira de Oliveira
Data de Publicação:	2018
Outros Autores:	http://lattes.cnpq.br/2285904262103284
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFAM
Texto Completo:	https://tede.ufam.edu.br/handle/tede/6778
Resumo:	O Twitter é uma das redes sociais mais utilizadas no mundo com cerca de centenas de milhões de usuários compartilhando imagens, vídeos, textos e links. Devido às restrições impostas no tamanho das mensagens é comum que os tweets compartilhem links encurtados para websites impossibilitando a identificação visual prévia da URL antes de saber o que será exibido. Tal problema tornou o Twitter um dos principais meios de disseminação de ataques de phishing através de links maliciosos. Phishing é um ataque que visa obter informações pessoais como nomes, senhas, números de contas bancárias e de cartões de crédito. Em geral, os sistemas de detecção de ataques de phishing projetados para o Twitter são construídos com base em modelos de classificação off-line. Em tais sistemas, um grande volume de dados é examinado uma única vez para induzir em um único modelo de predição estático. Nesses sistemas, a incorporação de novos dados requer a reconstrução do modelo de previsão a partir do processamento de toda a base de dados, tornando esse processo lento e ineficiente. Para solucionar este problema, este trabalho propõe um framework de detecção de phishing no Twitter. O framework utiliza aprendizagem online supervisionada, ou seja, o classificador é atualizado a cada tweet processado e, caso este realize uma predição errada, o modelo é atualizado se adaptando rapidamente às mudanças com baixo custo computacional, tempo e mantendo a sua eficiência na tarefa de classificação. Para este estudo avaliamos o desempenho dos algoritmos de aprendizagem online Adaptive Random Forest, Hoeffding Tree, Naive Bayes, Perceptron e Stochastic Gradient Descent. O classificador online Adaptive Random Forest apresentou acurácia prequential 99,8%, na classificação de tweets de phishing.

Metadados do item

id	UFAM_16fb5838dbe69b2f0e137e174c2e514a
oai_identifier_str	oai:https://tede.ufam.edu.br/handle/:tede/6778
network_acronym_str	UFAM
network_name_str	Biblioteca Digital de Teses e Dissertações da UFAM
repository_id_str	6592
spelling	Detecção de Phishing no Twitter Baseada em Algoritmos de Aprendizagem OnlineDetecção de phishingTwitterAprendizagem de máquinaClassificador onlinePhishing detectionmachine learningonline learningCIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO: SISTEMAS DE COMPUTAÇÃOO Twitter é uma das redes sociais mais utilizadas no mundo com cerca de centenas de milhões de usuários compartilhando imagens, vídeos, textos e links. Devido às restrições impostas no tamanho das mensagens é comum que os tweets compartilhem links encurtados para websites impossibilitando a identificação visual prévia da URL antes de saber o que será exibido. Tal problema tornou o Twitter um dos principais meios de disseminação de ataques de phishing através de links maliciosos. Phishing é um ataque que visa obter informações pessoais como nomes, senhas, números de contas bancárias e de cartões de crédito. Em geral, os sistemas de detecção de ataques de phishing projetados para o Twitter são construídos com base em modelos de classificação off-line. Em tais sistemas, um grande volume de dados é examinado uma única vez para induzir em um único modelo de predição estático. Nesses sistemas, a incorporação de novos dados requer a reconstrução do modelo de previsão a partir do processamento de toda a base de dados, tornando esse processo lento e ineficiente. Para solucionar este problema, este trabalho propõe um framework de detecção de phishing no Twitter. O framework utiliza aprendizagem online supervisionada, ou seja, o classificador é atualizado a cada tweet processado e, caso este realize uma predição errada, o modelo é atualizado se adaptando rapidamente às mudanças com baixo custo computacional, tempo e mantendo a sua eficiência na tarefa de classificação. Para este estudo avaliamos o desempenho dos algoritmos de aprendizagem online Adaptive Random Forest, Hoeffding Tree, Naive Bayes, Perceptron e Stochastic Gradient Descent. O classificador online Adaptive Random Forest apresentou acurácia prequential 99,8%, na classificação de tweets de phishing.Twitter is one of the most used social networks in the world with about 328 million users sharing images, videos, texts and links. Due to the restrictions on message size it is common for tweets to share shortened links to websites, making it impossible to visually identify the URL before knowing what will be displayed. Faced with this scenario, Twitter becomes a means of spreading phishing attacks through malicious links. Phishing is an attack that seeks to obtain personal information like name, CPF, passwords, number of bank accounts and numbers of credit cards. Twitter phishing attack detection systems are usually built using off-line supervised machine learning, where a large amount of data is examined once to induce a single static prediction model. In these systems, the incorporation of new data requires the reconstruction of the prediction model from the processing of the entire database, making this process slow and inefficient. In this work we propose a framework to detect phishing in Twitter. The framework uses supervised online learning, that is, the classifier is updated with each processed tweet and, if it makes a wrong prediction, the model is updated by adapting quickly to the changes with low computational cost, time and maintaining its efficiency in the task of ranking. For this study we evaluated the performance of the online learning algorithms Adaptive Random Forest, Hoeffding Tree, Naive Bayes, Perceptron and Stochastic Gradient Descent. The online Adaptive Random Forest classifier presented 99.8% prequential accuracy in the classification of phishing tweets.Universidade Federal do AmazonasInstituto de ComputaçãoBrasilUFAMPrograma de Pós-graduação em InformáticaSouto, Eduardo James Pereirahttp://lattes.cnpq.br/3875301617975895Souto, Eduardo James Pereirahttp://lattes.cnpq.br/3875301617975895Cristo, Marco Antônio Pinheiro dehttp://lattes.cnpq.br/6261175351521953Martins, Gilbert Breveshttp://lattes.cnpq.br/4932200790121123Barbosa, Haline Pereira de Oliveirahttp://lattes.cnpq.br/22859042621032842018-11-23T18:24:02Z2018-04-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfBARBOSA, Haline Pereira de Oliveira. Detecção de Phishing no Twitter Baseada em Algoritmos de Aprendizagem Online. 2018. 86 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2018.https://tede.ufam.edu.br/handle/tede/6778porhttp://creativecommons.org/licenses/by-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2018-11-24T05:07:21Zoai:https://tede.ufam.edu.br/handle/:tede/6778Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br\|\|ddbc@ufam.edu.bropendoar:65922018-11-24T05:07:21Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false
dc.title.none.fl_str_mv	Detecção de Phishing no Twitter Baseada em Algoritmos de Aprendizagem Online
title	Detecção de Phishing no Twitter Baseada em Algoritmos de Aprendizagem Online
spellingShingle	Detecção de Phishing no Twitter Baseada em Algoritmos de Aprendizagem Online Barbosa, Haline Pereira de Oliveira Detecção de phishing Twitter Aprendizagem de máquina Classificador online Phishing detection machine learning online learning CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO: SISTEMAS DE COMPUTAÇÃO
title_short	Detecção de Phishing no Twitter Baseada em Algoritmos de Aprendizagem Online
title_full	Detecção de Phishing no Twitter Baseada em Algoritmos de Aprendizagem Online
title_fullStr	Detecção de Phishing no Twitter Baseada em Algoritmos de Aprendizagem Online
title_full_unstemmed	Detecção de Phishing no Twitter Baseada em Algoritmos de Aprendizagem Online
title_sort	Detecção de Phishing no Twitter Baseada em Algoritmos de Aprendizagem Online
author	Barbosa, Haline Pereira de Oliveira
author_facet	Barbosa, Haline Pereira de Oliveira http://lattes.cnpq.br/2285904262103284
author_role	author
author2	http://lattes.cnpq.br/2285904262103284
author2_role	author
dc.contributor.none.fl_str_mv	Souto, Eduardo James Pereira http://lattes.cnpq.br/3875301617975895 Souto, Eduardo James Pereira http://lattes.cnpq.br/3875301617975895 Cristo, Marco Antônio Pinheiro de http://lattes.cnpq.br/6261175351521953 Martins, Gilbert Breves http://lattes.cnpq.br/4932200790121123
dc.contributor.author.fl_str_mv	Barbosa, Haline Pereira de Oliveira http://lattes.cnpq.br/2285904262103284
dc.subject.por.fl_str_mv	Detecção de phishing Twitter Aprendizagem de máquina Classificador online Phishing detection machine learning online learning CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO: SISTEMAS DE COMPUTAÇÃO
topic	Detecção de phishing Twitter Aprendizagem de máquina Classificador online Phishing detection machine learning online learning CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO: SISTEMAS DE COMPUTAÇÃO
description	O Twitter é uma das redes sociais mais utilizadas no mundo com cerca de centenas de milhões de usuários compartilhando imagens, vídeos, textos e links. Devido às restrições impostas no tamanho das mensagens é comum que os tweets compartilhem links encurtados para websites impossibilitando a identificação visual prévia da URL antes de saber o que será exibido. Tal problema tornou o Twitter um dos principais meios de disseminação de ataques de phishing através de links maliciosos. Phishing é um ataque que visa obter informações pessoais como nomes, senhas, números de contas bancárias e de cartões de crédito. Em geral, os sistemas de detecção de ataques de phishing projetados para o Twitter são construídos com base em modelos de classificação off-line. Em tais sistemas, um grande volume de dados é examinado uma única vez para induzir em um único modelo de predição estático. Nesses sistemas, a incorporação de novos dados requer a reconstrução do modelo de previsão a partir do processamento de toda a base de dados, tornando esse processo lento e ineficiente. Para solucionar este problema, este trabalho propõe um framework de detecção de phishing no Twitter. O framework utiliza aprendizagem online supervisionada, ou seja, o classificador é atualizado a cada tweet processado e, caso este realize uma predição errada, o modelo é atualizado se adaptando rapidamente às mudanças com baixo custo computacional, tempo e mantendo a sua eficiência na tarefa de classificação. Para este estudo avaliamos o desempenho dos algoritmos de aprendizagem online Adaptive Random Forest, Hoeffding Tree, Naive Bayes, Perceptron e Stochastic Gradient Descent. O classificador online Adaptive Random Forest apresentou acurácia prequential 99,8%, na classificação de tweets de phishing.
publishDate	2018
dc.date.none.fl_str_mv	2018-11-23T18:24:02Z 2018-04-03
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	BARBOSA, Haline Pereira de Oliveira. Detecção de Phishing no Twitter Baseada em Algoritmos de Aprendizagem Online. 2018. 86 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2018. https://tede.ufam.edu.br/handle/tede/6778
identifier_str_mv	BARBOSA, Haline Pereira de Oliveira. Detecção de Phishing no Twitter Baseada em Algoritmos de Aprendizagem Online. 2018. 86 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2018.
url	https://tede.ufam.edu.br/handle/tede/6778
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	http://creativecommons.org/licenses/by-nd/4.0/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nd/4.0/
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática
publisher.none.fl_str_mv	Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFAM instname:Universidade Federal do Amazonas (UFAM) instacron:UFAM
instname_str	Universidade Federal do Amazonas (UFAM)
instacron_str	UFAM
institution	UFAM
reponame_str	Biblioteca Digital de Teses e Dissertações da UFAM
collection	Biblioteca Digital de Teses e Dissertações da UFAM
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)
repository.mail.fl_str_mv	ddbc@ufam.edu.br\|\|ddbc@ufam.edu.br
_version_	1809732030805573632

Detecção de Phishing no Twitter Baseada em Algoritmos de Aprendizagem Online

Registros relacionados