Aprendizado de máquina para detecção de spam: um estudo comparativo de algoritmos de mineração de texto e classificadores
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNESP |
Texto Completo: | http://hdl.handle.net/11449/204207 |
Resumo: | Com o grande crescimento da área de informática e inovação tecnológica (era digital), cresce cada vez mais a necessidade de dispositivos e algoritmos capazes de aprender e reconhecer padrões. A segurança computacional se torna cada vez mais essencial com toda essa evolução, pois os incidentes de segurança estão se tornando cada vez mais comum. Um exemplo são as mensagens de spam, podendo trazer conteúdos impróprios ou indesejados e causando diversos problemas ou até mesmo roubo de informação. Baseado nisso se torna cada vez mais necessário o estudo dessas duas áreas em conjunto. Aprendizado de máquina e segurança computacional, o que possibilita a criação de novos dispositivos e ferramentas capazes de reconhecer padrões de incidentes de segurança através da inteligência computacional. Assim, é proposto neste trabalho efetuar a extração de características (vetorização de texto), que tem a finalidade de efetuar a extração dos termos mais relevantes, e posteriormente combiná-los com algoritmos de aprendizado de máquina semi-supervisionados, como o objetivo de estudar qual combinação é mais viável para a detecção de spam. |
id |
UNSP_512e6341b47b91d4e47aec73f0cabc2c |
---|---|
oai_identifier_str |
oai:repositorio.unesp.br:11449/204207 |
network_acronym_str |
UNSP |
network_name_str |
Repositório Institucional da UNESP |
repository_id_str |
2946 |
spelling |
Aprendizado de máquina para detecção de spam: um estudo comparativo de algoritmos de mineração de texto e classificadoresMachine learning for spam detection: a comparative study of text mining algorithms and classifiersSegurança computacionalReconhecimento de padrãoExtração de característicasComputer securityPattern recognitionFeature extractionCom o grande crescimento da área de informática e inovação tecnológica (era digital), cresce cada vez mais a necessidade de dispositivos e algoritmos capazes de aprender e reconhecer padrões. A segurança computacional se torna cada vez mais essencial com toda essa evolução, pois os incidentes de segurança estão se tornando cada vez mais comum. Um exemplo são as mensagens de spam, podendo trazer conteúdos impróprios ou indesejados e causando diversos problemas ou até mesmo roubo de informação. Baseado nisso se torna cada vez mais necessário o estudo dessas duas áreas em conjunto. Aprendizado de máquina e segurança computacional, o que possibilita a criação de novos dispositivos e ferramentas capazes de reconhecer padrões de incidentes de segurança através da inteligência computacional. Assim, é proposto neste trabalho efetuar a extração de características (vetorização de texto), que tem a finalidade de efetuar a extração dos termos mais relevantes, e posteriormente combiná-los com algoritmos de aprendizado de máquina semi-supervisionados, como o objetivo de estudar qual combinação é mais viável para a detecção de spam.The boom of technological innovation (digital era) has imposed the need for devices and algorithms that learn and recognize patterns. Driven by such evolution, computer security has become an essential, once incidents regarding computer security have been increasing even faster than technology itself. An example are spam messages, which may display inappropriate content, or even cause damage or data theft. Therefore, it is important to integrate both machine learning and computer security to create new devices and tools that are able to recognize patters of computer security incidents by using computer intelligence. To do so, this study aims to carry out a feature extraction process (text vectorization) of features that extract relevant terms and combine them as semi-supervised machine learning algorithms, analyzing which combination is the most viable to detect spam.Universidade Estadual Paulista (Unesp)Breve, Fabricio Aparecido [UNESP]Universidade Estadual Paulista (Unesp)Milani, Thiago Giroto2021-03-26T18:33:40Z2021-03-26T18:33:40Z2020-01-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/20420733004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2023-10-09T06:05:25Zoai:repositorio.unesp.br:11449/204207Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T14:26:38.328821Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false |
dc.title.none.fl_str_mv |
Aprendizado de máquina para detecção de spam: um estudo comparativo de algoritmos de mineração de texto e classificadores Machine learning for spam detection: a comparative study of text mining algorithms and classifiers |
title |
Aprendizado de máquina para detecção de spam: um estudo comparativo de algoritmos de mineração de texto e classificadores |
spellingShingle |
Aprendizado de máquina para detecção de spam: um estudo comparativo de algoritmos de mineração de texto e classificadores Milani, Thiago Giroto Segurança computacional Reconhecimento de padrão Extração de características Computer security Pattern recognition Feature extraction |
title_short |
Aprendizado de máquina para detecção de spam: um estudo comparativo de algoritmos de mineração de texto e classificadores |
title_full |
Aprendizado de máquina para detecção de spam: um estudo comparativo de algoritmos de mineração de texto e classificadores |
title_fullStr |
Aprendizado de máquina para detecção de spam: um estudo comparativo de algoritmos de mineração de texto e classificadores |
title_full_unstemmed |
Aprendizado de máquina para detecção de spam: um estudo comparativo de algoritmos de mineração de texto e classificadores |
title_sort |
Aprendizado de máquina para detecção de spam: um estudo comparativo de algoritmos de mineração de texto e classificadores |
author |
Milani, Thiago Giroto |
author_facet |
Milani, Thiago Giroto |
author_role |
author |
dc.contributor.none.fl_str_mv |
Breve, Fabricio Aparecido [UNESP] Universidade Estadual Paulista (Unesp) |
dc.contributor.author.fl_str_mv |
Milani, Thiago Giroto |
dc.subject.por.fl_str_mv |
Segurança computacional Reconhecimento de padrão Extração de características Computer security Pattern recognition Feature extraction |
topic |
Segurança computacional Reconhecimento de padrão Extração de características Computer security Pattern recognition Feature extraction |
description |
Com o grande crescimento da área de informática e inovação tecnológica (era digital), cresce cada vez mais a necessidade de dispositivos e algoritmos capazes de aprender e reconhecer padrões. A segurança computacional se torna cada vez mais essencial com toda essa evolução, pois os incidentes de segurança estão se tornando cada vez mais comum. Um exemplo são as mensagens de spam, podendo trazer conteúdos impróprios ou indesejados e causando diversos problemas ou até mesmo roubo de informação. Baseado nisso se torna cada vez mais necessário o estudo dessas duas áreas em conjunto. Aprendizado de máquina e segurança computacional, o que possibilita a criação de novos dispositivos e ferramentas capazes de reconhecer padrões de incidentes de segurança através da inteligência computacional. Assim, é proposto neste trabalho efetuar a extração de características (vetorização de texto), que tem a finalidade de efetuar a extração dos termos mais relevantes, e posteriormente combiná-los com algoritmos de aprendizado de máquina semi-supervisionados, como o objetivo de estudar qual combinação é mais viável para a detecção de spam. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-01-28 2021-03-26T18:33:40Z 2021-03-26T18:33:40Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11449/204207 33004153073P2 |
url |
http://hdl.handle.net/11449/204207 |
identifier_str_mv |
33004153073P2 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
instname_str |
Universidade Estadual Paulista (UNESP) |
instacron_str |
UNESP |
institution |
UNESP |
reponame_str |
Repositório Institucional da UNESP |
collection |
Repositório Institucional da UNESP |
repository.name.fl_str_mv |
Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP) |
repository.mail.fl_str_mv |
|
_version_ |
1808128361407447040 |